論文の概要: Transformers Can Learn Posterior Predictive Distributions In-Context
- arxiv url: http://arxiv.org/abs/2605.26713v1
- Date: Tue, 26 May 2026 08:54:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.768522
- Title: Transformers Can Learn Posterior Predictive Distributions In-Context
- Title(参考訳): トランスフォーマーは後部予測分布を文脈で学習できる
- Authors: Gyeonghun Kang, Changwoo J. Lee, Xiang Cheng,
- Abstract要約: 後続予測平均と分散を対象とする勾配降下アルゴリズムを実装でき、次いで非線形写像によりPSDの双発確率を導出できることを示す。
さらに, 標本サイズ範囲を超えて, 変圧器の補間機能を実現する上で, 正規化の鍵となる役割と注意深度の選択について述べる。
- 参考スコア(独自算出の注目度): 9.422052936758732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior-data fitted networks (PFNs) have recently emerged as a powerful approach for Bayesian prediction tasks, approximating the posterior predictive distribution (PPD) through in-context learning. Despite their strong empirical performance and ability to go beyond point predictions, theoretical understandings of the algorithmic capability of transformers to learn distributions in context are still lacking. Focusing on Gaussian process regression problems, we show by construction that transformers can implement a gradient descent algorithm targeting the posterior predictive mean and variance, followed by nonlinear mappings that yield binned probabilities of PPD. We study the error bounds of the approximated PPD in terms of attention depth and bin resolution. Based on these results, we further demonstrate the key role of normalization and the choice of attention depth in enabling the extrapolation abilities of transformers beyond the pretraining sample size range. We conduct simulations that corroborate our findings, providing insight into the expressivity of PFNs targeting PPDs and how architectural choices may influence generalization capabilities.
- Abstract(参考訳): 近年,PFN(Presideed Data fited Network)がベイズ予測タスクの強力なアプローチとして登場し,文脈内学習による後部予測分布(PPD)を近似している。
強力な経験的性能と点予測を超える能力にもかかわらず、変圧器が文脈で分布を学習するアルゴリズム能力に関する理論的理解はいまだに不足している。
ガウス過程の回帰問題に着目し, 変圧器は, 後続予測平均と分散を対象とする勾配降下アルゴリズムを実装できることを示す。
注目深度とビン分解能の観点から近似PSDの誤差境界について検討した。
これらの結果から, 変圧器の外挿性能を予め訓練した試料サイズ範囲を超えて向上させる上で, 正規化の鍵となる役割と, 注意深度の選択を更に明らかにした。
我々は,PSDを対象とするPFNの表現性や,アーキテクチャ上の選択が一般化能力にどのように影響するかについて,我々の知見を裏付けるシミュレーションを行う。
関連論文リスト
- Function-Space Empirical Bayes Regularisation with Student's t Priors [7.187565893243619]
本稿では,関数空間のベイズ正規化フレームワークST-FS-EBを提案する。
また,モンテカルロ (MC) のドロップアウトに基づくエビデンスローバウンド (ELBO) 目標を導出する変動推論 (VI) による後部分布の近似を行った。
論文 参考訳(メタデータ) (2026-02-25T15:29:44Z) - Diffusion-Inspired Reconfiguration of Transformers for Uncertainty Calibration [52.017716672255524]
プレトレーニングトランスにおける不確実性校正は、リスクに敏感なアプリケーションへの信頼性の高い展開において重要である。
本稿では,各特徴変換ブロックを確率的写像としてモデル化したトランスフォーマの拡散インスピレーションによる再構成を提案する。
本手法は既存の不確実性認識変換器と比較してキャリブレーションと予測精度が優れている。
論文 参考訳(メタデータ) (2026-02-09T17:24:47Z) - Bayesian PINNs for uncertainty-aware inverse problems (BPINN-IP) [1.583842747998493]
提案手法はPINNを拡張し、期待されるNN出力の性質や重みに関する事前知識を考慮に入れている。
変形推論とモンテカルロのドロップアウトは、再構成された画像に対する予測手段と分散を提供するために用いられる。
論文 参考訳(メタデータ) (2026-02-04T11:42:57Z) - From Shortcut to Induction Head: How Data Diversity Shapes Algorithm Selection in Transformers [67.02076505996284]
本研究では, 事前学習したデータ分布の選択が, 浅層変圧器を一方の行動に向ける方法について検討する。
その結果,事前学習したトランスフォーマーのアルゴリズム的バイアスに光を当て,学習行動のデータ駆動制御に関する概念的ガイドラインを提供することができた。
論文 参考訳(メタデータ) (2025-12-21T08:10:26Z) - Adaptive Concept Bottleneck for Foundation Models Under Distribution Shifts [33.677249894085186]
複雑で非解釈可能な基礎モデルを解釈可能な意思決定パイプラインに変換するための概念ボトルネックモデルの可能性を探る。
具体的には、このような解釈可能なCBMパイプラインを“野生”で”テスト時にデプロイすることに重点を置いています。
提案手法は,テストデータとの整合性を向上し,デプロイ後の精度を最大28%向上させる。
論文 参考訳(メタデータ) (2024-12-18T17:47:46Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - Efficient expectation propagation for posterior approximation in
high-dimensional probit models [1.433758865948252]
ベイジアンプロビット回帰における後部分布の予測伝搬(EP)近似に着目した。
拡張多変量スキュー正規分布における結果の活用方法を示し,EPルーチンの効率的な実装を導出する。
これにより、EPは、詳細なシミュレーション研究で示されているように、高次元設定に挑戦する上でも実現可能である。
論文 参考訳(メタデータ) (2023-09-04T14:07:19Z) - Which Invariance Should We Transfer? A Causal Minimax Learning Approach [18.71316951734806]
本稿では、因果的観点からの包括的ミニマックス分析について述べる。
最小の最悪のリスクを持つサブセットを探索する効率的なアルゴリズムを提案する。
本手法の有効性と有効性は, 合成データとアルツハイマー病の診断で実証された。
論文 参考訳(メタデータ) (2021-07-05T09:07:29Z) - Probabilistic electric load forecasting through Bayesian Mixture Density
Networks [70.50488907591463]
確率的負荷予測(PLF)は、スマートエネルギーグリッドの効率的な管理に必要な拡張ツールチェーンの重要なコンポーネントです。
ベイジアン混合密度ネットワークを枠とした新しいPLFアプローチを提案する。
後方分布の信頼性と計算にスケーラブルな推定を行うため,平均場変動推定と深層アンサンブルを統合した。
論文 参考訳(メタデータ) (2020-12-23T16:21:34Z) - Bayesian Deep Learning and a Probabilistic Perspective of Generalization [56.69671152009899]
ディープアンサンブルはベイズ辺化を近似する有効なメカニズムであることを示す。
また,アトラクションの流域内での辺縁化により,予測分布をさらに改善する関連手法を提案する。
論文 参考訳(メタデータ) (2020-02-20T15:13:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。