論文の概要: A Bayesian Perspective on the Role of Epistemic Uncertainty for Delayed Generalization in In-Context Learning
- arxiv url: http://arxiv.org/abs/2604.12434v1
- Date: Tue, 14 Apr 2026 08:25:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.335438
- Title: A Bayesian Perspective on the Role of Epistemic Uncertainty for Delayed Generalization in In-Context Learning
- Title(参考訳): 文脈学習における遅延一般化における認識不確かさの役割に関するベイズ的視点
- Authors: Abdessamed Qchohi, Simone Rossi,
- Abstract要約: インコンテキスト学習は、トランスフォーマーが推論時にいくつかの例から新しいタスクに適応できるようにする。
ベイジアンの視点から,タスクの一般化と文法学習について検討し,暗記から一般化への移行が遅れている理由を問う。
- 参考スコア(独自算出の注目度): 3.236735486944393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning enables transformers to adapt to new tasks from a few examples at inference time, while grokking highlights that this generalization can emerge abruptly only after prolonged training. We study task generalization and grokking in in-context learning using a Bayesian perspective, asking what enables the delayed transition from memorization to generalization. Concretely, we consider modular arithmetic tasks in which a transformer must infer a latent linear function solely from in-context examples and analyze how predictive uncertainty evolves during training. We combine approximate Bayesian techniques to estimate the posterior distribution and we study how uncertainty behaves across training and under changes in task diversity, context length, and context noise. We find that epistemic uncertainty collapses sharply when the model groks, making uncertainty a practical label-free diagnostic of generalization in transformers. Additionally, we provide theoretical support with a simplified Bayesian linear model, showing that asymptotically both delayed generalization and uncertainty peaks arise from the same underlying spectral mechanism, which links grokking time to uncertainty dynamics.
- Abstract(参考訳): インコンテキスト学習は、トランスフォーマーが推論時にいくつかの例から新しいタスクに適応できるようにする。
ベイジアンの視点から,タスクの一般化と文法学習について検討し,暗記から一般化への移行が遅れている理由を問う。
具体的には,文中の例からのみ潜在線形関数を推論し,学習中に予測の不確実性がどのように進化するかを解析するモジュラー算術を考察する。
我々は,タスクの多様性,文脈長,文脈雑音の変化下でのトレーニングにおける不確実性がどのように振る舞うかを,ベイズ的手法と組み合わせて検討する。
モデルが肥大化するとてんかんの不確実性は急激に崩壊し,変圧器の一般化の実用的なラベルなし診断法として不確実性が確認された。
さらに、単純化されたベイズ線形モデルを用いて理論的支援を行い、漸近的に遅れた一般化と不確かさピークは、グルーキング時間と不確かさのダイナミクスをリンクする同じスペクトルメカニズムから生じることを示す。
関連論文リスト
- Filtering Beats Fine Tuning: A Bayesian Kalman View of In Context Learning in LLMs [0.0]
本稿では,大規模言語モデルにおける推論時適応をオンラインベイズ状態推定として解釈する理論優先フレームワークを提案する。
線形化状態空間モデルにより制御された低次元潜在状態の逐次的推論としてタスク固有学習とコンテキスト固有学習を定式化する。
論文 参考訳(メタデータ) (2026-01-02T21:18:48Z) - In-Context Learning Is Provably Bayesian Inference: A Generalization Theory for Meta-Learning [51.56484100374058]
本稿では,ICLリスクをベイズギャップとポストリアバリアンスの2つのコンポーネントに分割する基本的リスク分解を導入する。
一様アテンション変換器の場合、このギャップの非漸近上界を導出し、事前学習プロンプトの数への依存を明確にする。
後方変動は本質的なタスクの不確実性を表すモデルに依存しないリスクである。
論文 参考訳(メタデータ) (2025-10-13T03:42:31Z) - Provable In-Context Learning of Nonlinear Regression with Transformers [66.99048542127768]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。
最近の研究はICLの背後にあるトレーニングのダイナミクスを積極的に探求しており、その多くは比較的単純なタスクに重点を置いている。
本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文 参考訳(メタデータ) (2025-07-28T00:09:28Z) - Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。
そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文 参考訳(メタデータ) (2024-10-30T14:09:00Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Asymptotic theory of in-context learning by linear attention [37.3817914656799]
インコンテキスト学習はトランスフォーマーの成功の土台である。
ICLを成功させるためには、必要なサンプルの複雑さ、事前学習タスクの多様性、コンテキストの長さに関する質問は未解決のままである。
論文 参考訳(メタデータ) (2024-05-20T03:24:24Z) - On the Generalization Ability of Unsupervised Pretraining [53.06175754026037]
教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。
本稿では、教師なし事前学習中に得られた知識の伝達可能性に影響を及ぼす重要な要因をその後の微調整フェーズに照らす新しい理論的枠組みを提案する。
この結果は教師なし事前学習と微調整のパラダイムの理解を深め、より効果的な事前学習アルゴリズムの設計に光を当てることができる。
論文 参考訳(メタデータ) (2024-03-11T16:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。