論文の概要: Beyond Induction Heads: In-Context Meta Learning Induces Multi-Phase Circuit Emergence
- arxiv url: http://arxiv.org/abs/2505.16694v1
- Date: Thu, 22 May 2025 13:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.343079
- Title: Beyond Induction Heads: In-Context Meta Learning Induces Multi-Phase Circuit Emergence
- Title(参考訳): 誘導ヘッドを超えて: インコンテキストメタ学習は多相回路の創発を誘導する
- Authors: Gouki Minegishi, Hiroki Furuta, Shohei Taniguchi, Yusuke Iwasawa, Yutaka Matsuo,
- Abstract要約: トランスフォーマーベースの言語モデルは、文脈に基づいて適応的に予測を行うICL(In-Context Learning)を示す。
このようなメタ学習能力は、トレーニング中にモデルの回路のダイナミクスを解析することによってどのように得られるのかを実験的に明らかにする。
- 参考スコア(独自算出の注目度): 28.260455480198047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based language models exhibit In-Context Learning (ICL), where predictions are made adaptively based on context. While prior work links induction heads to ICL through a sudden jump in accuracy, this can only account for ICL when the answer is included within the context. However, an important property of practical ICL in large language models is the ability to meta-learn how to solve tasks from context, rather than just copying answers from context; how such an ability is obtained during training is largely unexplored. In this paper, we experimentally clarify how such meta-learning ability is acquired by analyzing the dynamics of the model's circuit during training. Specifically, we extend the copy task from previous research into an In-Context Meta Learning setting, where models must infer a task from examples to answer queries. Interestingly, in this setting, we find that there are multiple phases in the process of acquiring such abilities, and that a unique circuit emerges in each phase, contrasting with the single-phases change in induction heads. The emergence of such circuits can be related to several phenomena known in large language models, and our analysis lead to a deeper understanding of the source of the transformer's ICL ability.
- Abstract(参考訳): トランスフォーマーベースの言語モデルは、文脈に基づいて適応的に予測を行うICL(In-Context Learning)を示す。
事前の作業リンク誘導ヘッドは、突然の精度向上によってICLにリンクするが、これは、応答がコンテキスト内に含まれる場合にのみ、ICLを考慮できる。
しかし、大規模言語モデルにおける実用的なICLの重要な特性は、文脈から回答をコピーするだけでなく、文脈からタスクを解く方法をメタ学習する能力である。
本稿では,学習中のモデルの回路のダイナミクスを解析することにより,このようなメタ学習能力がどのように獲得されるのかを実験的に明らかにする。
具体的には、従来の研究からコピータスクを拡張して、モデルがサンプルからタスクを推論してクエリに応答する必要がある、インコンテキストメタ学習設定にします。
興味深いことに、この設定では、そのような能力を得る過程には複数の位相があり、各位相に一意な回路が出現し、誘導ヘッドの単相変化とは対照的である。
このような回路の出現は、大きな言語モデルで知られているいくつかの現象と関連しうる。
関連論文リスト
- Illusion or Algorithm? Investigating Memorization, Emergence, and Symbolic Processing in In-Context Learning [48.67380502157004]
大規模トランスフォーマー言語モデル(LM)は、Webスケールデータによる次世代の予測のみを訓練することで、幅広いタスクを解決できる。
この能力の背後にあるメカニズムは、ICL(In-context Learning)と呼ばれ、議論の余地があり、理解が不十分なままである。
論文 参考訳(メタデータ) (2025-05-16T08:50:42Z) - Understanding Knowledge Hijack Mechanism in In-context Learning through Associative Memory [37.93644115914534]
In-context Learning (ICL) は、大規模言語モデルが微調整なしで新しいタスクに適応できるようにする。
本稿では,トークン予測における文脈内情報と事前学習したビッグラム知識のバランスについて検討する。
論文 参考訳(メタデータ) (2024-12-16T05:33:05Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Asymptotic theory of in-context learning by linear attention [33.53106537972063]
インコンテキスト学習はトランスフォーマーの成功の土台である。
ICLを成功させるためには、必要なサンプルの複雑さ、事前学習タスクの多様性、コンテキストの長さに関する質問は未解決のままである。
論文 参考訳(メタデータ) (2024-05-20T03:24:24Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。