論文の概要: In-Context Learning Strategies Emerge Rationally
- arxiv url: http://arxiv.org/abs/2506.17859v2
- Date: Thu, 26 Jun 2025 16:54:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 13:31:57.721379
- Title: In-Context Learning Strategies Emerge Rationally
- Title(参考訳): In-Context Learning Strategies Emerge Rationally
- Authors: Daniel Wurgaft, Ekdeep Singh Lubana, Core Francisco Park, Hidenori Tanaka, Gautam Reddy, Noah D. Goodman,
- Abstract要約: タスクの混合を学習する訓練を行うと、ICLの実行モデルによって学習された戦略がベイズ予測器のファミリーによって捕捉されることを示す。
我々は、トレーニングを通してTransformerの次なる予測をほぼ完全に予測する階層型ベイズフレームワークを開発した。
我々の研究は、戦略損失と複雑性の間のトレードオフを基礎としたICLの説明的かつ予測的な説明を前進させます。
- 参考スコア(独自算出の注目度): 36.21854069812912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work analyzing in-context learning (ICL) has identified a broad set of strategies that describe model behavior in different experimental conditions. We aim to unify these findings by asking why a model learns these disparate strategies in the first place. Specifically, we start with the observation that when trained to learn a mixture of tasks, as is popular in the literature, the strategies learned by a model for performing ICL can be captured by a family of Bayesian predictors: a memorizing predictor, which assumes a discrete prior on the set of seen tasks, and a generalizing predictor, where the prior matches the underlying task distribution. Adopting the normative lens of rational analysis, where a learner's behavior is explained as an optimal adaptation to data given computational constraints, we develop a hierarchical Bayesian framework that almost perfectly predicts Transformer next-token predictions throughout training -- without assuming access to its weights. Under this framework, pretraining is viewed as a process of updating the posterior probability of different strategies, and inference-time behavior as a posterior-weighted average over these strategies' predictions. Our framework draws on common assumptions about neural network learning dynamics, which make explicit a tradeoff between loss and complexity among candidate strategies: beyond how well it explains the data, a model's preference towards implementing a strategy is dictated by its complexity. This helps explain well-known ICL phenomena, while offering novel predictions: e.g., we show a superlinear trend in the timescale for transitioning from generalization to memorization as task diversity increases. Overall, our work advances an explanatory and predictive account of ICL grounded in tradeoffs between strategy loss and complexity.
- Abstract(参考訳): 近年のインコンテキスト学習 (ICL) では, 異なる実験条件下でのモデル行動を記述するための幅広い戦略が特定されている。
モデルがそもそもこれらの異なる戦略を学習する理由を問うことで、これらの知見を統一することを目指している。
具体的には,タスクの混合を学習する訓練を行う場合,ICCを実行するためのモデルによって得られた戦略をベイズ予測者のファミリーによって捉えることができる,という観察から始める。
学習者の行動が与えられた計算制約に最適な適応として説明される有理分析の規範レンズを採用することで、トレーニング全体を通してトランスフォーマーの次の予測をほぼ完全に予測する階層的ベイズフレームワークを開発します。
この枠組みの下では、事前学習は異なる戦略の後方確率を更新するプロセスと見なされ、予測時行動はこれらの戦略の予測よりも後重み付き平均と見なされる。
私たちのフレームワークは、ニューラルネットワーク学習のダイナミクスに関する一般的な仮定に基づいており、候補戦略間の損失と複雑性のトレードオフを明確にしている。
例えば、タスクの多様性が増大するにつれて、一般化から記憶への遷移の時間スケールにおいて、超線形傾向を示す。
全体として、我々の研究は、戦略損失と複雑性の間のトレードオフに根ざしたICLの説明的かつ予測的な説明を前進させます。
関連論文リスト
- In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Practical Performative Policy Learning with Strategic Agents [8.361090623217246]
本研究では,政策学習の課題について検討し,エージェントが提案した方針に応えて特徴を調整し,その潜在的な結果を改善する。
本稿では,高次元分布マップの代用として,微分可能な分類器を用いた勾配型ポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-02T10:09:44Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - An Analysis of Initial Training Strategies for Exemplar-Free
Class-Incremental Learning [36.619804184427245]
CIL(Class-Incremental Learning)は、データストリームから分類モデルを構築することを目的としている。
破滅的な忘れ物のため、過去のクラスの例を保存できない場合、CILは特に困難である。
大量のデータに対する自己管理的な方法で事前訓練されたモデルの使用は、最近勢いを増している。
論文 参考訳(メタデータ) (2023-08-22T14:06:40Z) - Towards Out-of-Distribution Sequential Event Prediction: A Causal
Treatment [72.50906475214457]
シーケンシャルなイベント予測の目標は、一連の歴史的なイベントに基づいて次のイベントを見積もることである。
実際には、次のイベント予測モデルは、一度に収集されたシーケンシャルなデータで訓練される。
文脈固有の表現を学習するための階層的な分岐構造を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T07:54:13Z) - Learning from Heterogeneous Data Based on Social Interactions over
Graphs [58.34060409467834]
本研究では,個別のエージェントが異なる次元のストリーミング特徴を観察しながら分類問題の解決を目指す分散アーキテクチャを提案する。
私たちはそれを示します。
戦略により、エージェントはこの高度に異質な環境下で一貫して学習することができる。
私たちはそれを示します。
戦略により、エージェントはこの高度に異質な環境下で一貫して学習することができる。
論文 参考訳(メタデータ) (2021-12-17T12:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。