論文の概要: Pre-training and in-context learning IS Bayesian inference a la De Finetti
- arxiv url: http://arxiv.org/abs/2408.03307v1
- Date: Tue, 6 Aug 2024 17:16:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 13:28:25.010093
- Title: Pre-training and in-context learning IS Bayesian inference a la De Finetti
- Title(参考訳): プレトレーニングとインコンテクスト学習 : ベイズ推定とデ・フィネッティ
- Authors: Naimeng Ye, Hanming Yang, Andrew Siah, Hongseok Namkoong,
- Abstract要約: 私たちは、デ・フィネッティのベイズ的推論に関する予測的な見解に戻ります。
デ・フィネッティは長い間、可観測物の交換可能なシーケンスをモデル化することを提唱してきた。
本稿では,不確実性が鍵となる下流タスクにおいて,交換可能な文書に対するシーケンス予測損失が性能を制御することを示す。
- 参考スコア(独自算出の注目度): 5.095571791233068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately gauging uncertainty on the underlying environment is a longstanding goal of intelligent systems. We characterize which latent concepts pre-trained sequence models are naturally able to reason with. We go back to De Finetti's predictive view of Bayesian reasoning: instead of modeling latent parameters through priors and likelihoods like topic models do, De Finetti has long advocated for modeling exchangeable (permutation invariant) sequences of observables. According to this view, pre-training autoregressive models formulates informed beliefs based on prior observations ("empirical Bayes"), and forward generation is a simulated instantiation of an environment ("posterior inference"). This connection allows extending in-context learning (ICL) beyond predictive settings, highlighting sequence models' ability to perform explicit statistical inference. In particular, we show the sequence prediction loss over exchangeable documents controls performance on downstream tasks where uncertainty quantification is key. Empirically, we propose and demonstrate several approaches for encoding exchangeability in sequence model architectures: data augmentation, regularization, and causal masking.
- Abstract(参考訳): 根底にある環境における正確な不確実性は、インテリジェントシステムの長年の目標である。
我々は、事前訓練されたシーケンスモデルが自然に推論できる潜在概念の特徴付けを行う。
デ・フィネッティは長い間、可観測物の交換可能な(置換不変な)配列のモデリングを提唱してきた。
この見解によれば、事前学習された自己回帰モデルは、事前の観察(「経験的ベイズ」)に基づいて情報的信念を定式化し、前方生成は環境のシミュレートされたインスタンス化(「後部推論」)である。
この接続により、予測設定を超えてコンテキスト内学習(ICL)を拡張し、明確な統計的推論を実行するシーケンスモデルの能力を強調することができる。
特に、不確実な定量化が鍵となる下流タスクにおいて、交換可能な文書に対するシーケンス予測損失が性能を制御することを示す。
本稿では,データ拡張,正規化,因果マスキングといったシーケンスモデルアーキテクチャにおける交換可能性の符号化手法を提案する。
関連論文リスト
- On the Efficient Marginalization of Probabilistic Sequence Models [3.5897534810405403]
この論文は、複雑な確率的クエリに答えるために自己回帰モデルを使うことに焦点を当てている。
我々は,モデルに依存しない逐次モデルにおいて,境界化のための新しい,効率的な近似手法のクラスを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:29:08Z) - Model-agnostic variable importance for predictive uncertainty: an entropy-based approach [1.912429179274357]
既存の説明可能性の手法が不確実性を考慮したモデルにどのように拡張できるかを示す。
我々は、不確実性の原因とモデル性能への影響の両方を理解するために、これらのアプローチの有用性を実証する。
論文 参考訳(メタデータ) (2023-10-19T15:51:23Z) - Quantification of Predictive Uncertainty via Inference-Time Sampling [57.749601811982096]
本稿では,データあいまいさの予測不確実性を推定するためのポストホックサンプリング手法を提案する。
この方法は与えられた入力に対して異なる可算出力を生成することができ、予測分布のパラメトリック形式を仮定しない。
論文 参考訳(メタデータ) (2023-08-03T12:43:21Z) - Function-Space Regularization for Deep Bayesian Classification [33.63495888167032]
予測空間にディリクレを前もって適用し、近似関数空間変分推論を行う。
推論を適用することで、モデルアーキテクチャやサイズに影響を与えることなく、同じ関数空間を異なるモデルと組み合わせることができる。
論文 参考訳(メタデータ) (2023-07-12T10:17:54Z) - The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。
有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文 参考訳(メタデータ) (2022-11-11T19:34:17Z) - Dense Uncertainty Estimation via an Ensemble-based Conditional Latent
Variable Model [68.34559610536614]
我々は、アレータリック不確実性はデータの固有の特性であり、偏見のないオラクルモデルでのみ正確に推定できると論じる。
そこで本研究では,軌道不確実性推定のためのオラクルモデルを近似するために,列車時の新しいサンプリングと選択戦略を提案する。
以上の結果から,提案手法は精度の高い決定論的結果と確実な不確実性推定の両方を達成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-22T08:54:10Z) - Transforming Autoregression: Interpretable and Expressive Time Series
Forecast [0.0]
本稿では,様々な研究方向からインスパイアされたモデルクラスである自己回帰変換モデル(ATM)を提案する。
ATMは半パラメトリック分布仮定と解釈可能なモデル仕様を用いて表現的分布予測を統一する。
ATMの理論的および実証的な評価により,複数のシミュレーションおよび実世界の予測データセット上でATMの特性を実証する。
論文 参考訳(メタデータ) (2021-10-15T17:58:49Z) - Dense Uncertainty Estimation [62.23555922631451]
本稿では,ニューラルネットワークと不確実性推定手法について検討し,正確な決定論的予測と確実性推定の両方を実現する。
本研究では,アンサンブルに基づく手法と生成モデルに基づく手法の2つの不確実性推定法について検討し,それらの長所と短所を,完全/半端/弱度に制御されたフレームワークを用いて説明する。
論文 参考訳(メタデータ) (2021-10-13T01:23:48Z) - When in Doubt: Neural Non-Parametric Uncertainty Quantification for
Epidemic Forecasting [70.54920804222031]
既存の予測モデルは不確実な定量化を無視し、誤校正予測をもたらす。
不確実性を考慮した時系列予測のためのディープニューラルネットワークの最近の研究にもいくつかの制限がある。
本稿では,予測タスクを確率的生成過程としてモデル化し,EPIFNPと呼ばれる機能的ニューラルプロセスモデルを提案する。
論文 参考訳(メタデータ) (2021-06-07T18:31:47Z) - Aleatoric uncertainty for Errors-in-Variables models in deep regression [0.48733623015338234]
Errors-in-Variablesの概念がベイズ的深部回帰においてどのように利用できるかを示す。
様々なシミュレートされた実例に沿ったアプローチについて論じる。
論文 参考訳(メタデータ) (2021-05-19T12:37:02Z) - Learning Interpretable Deep State Space Model for Probabilistic Time
Series Forecasting [98.57851612518758]
確率的時系列予測は、その歴史に基づいて将来の分布を推定する。
本稿では,非線形エミッションモデルと遷移モデルとをネットワークによってパラメータ化した,確率的時系列予測のための深部状態空間モデルを提案する。
実験では,我々のモデルが正確かつ鋭い確率予測を生成することを示す。
論文 参考訳(メタデータ) (2021-01-31T06:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。