Fugu-MT 論文翻訳(概要): Beyond Induction Heads: In-Context Meta Learning Induces Multi-Phase Circuit Emergence

論文の概要: Beyond Induction Heads: In-Context Meta Learning Induces Multi-Phase Circuit Emergence

arxiv url: http://arxiv.org/abs/2505.16694v1
Date: Thu, 22 May 2025 13:59:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-23 17:12:48.343079
Title: Beyond Induction Heads: In-Context Meta Learning Induces Multi-Phase Circuit Emergence
Title（参考訳）: 誘導ヘッドを超えて: インコンテキストメタ学習は多相回路の創発を誘導する
Authors: Gouki Minegishi, Hiroki Furuta, Shohei Taniguchi, Yusuke Iwasawa, Yutaka Matsuo,
Abstract要約: トランスフォーマーベースの言語モデルは、文脈に基づいて適応的に予測を行うICL(In-Context Learning)を示す。このようなメタ学習能力は、トレーニング中にモデルの回路のダイナミクスを解析することによってどのように得られるのかを実験的に明らかにする。
参考スコア（独自算出の注目度）: 28.260455480198047
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer-based language models exhibit In-Context Learning (ICL), where predictions are made adaptively based on context. While prior work links induction heads to ICL through a sudden jump in accuracy, this can only account for ICL when the answer is included within the context. However, an important property of practical ICL in large language models is the ability to meta-learn how to solve tasks from context, rather than just copying answers from context; how such an ability is obtained during training is largely unexplored. In this paper, we experimentally clarify how such meta-learning ability is acquired by analyzing the dynamics of the model's circuit during training. Specifically, we extend the copy task from previous research into an In-Context Meta Learning setting, where models must infer a task from examples to answer queries. Interestingly, in this setting, we find that there are multiple phases in the process of acquiring such abilities, and that a unique circuit emerges in each phase, contrasting with the single-phases change in induction heads. The emergence of such circuits can be related to several phenomena known in large language models, and our analysis lead to a deeper understanding of the source of the transformer's ICL ability.
Abstract（参考訳）: トランスフォーマーベースの言語モデルは、文脈に基づいて適応的に予測を行うICL(In-Context Learning)を示す。事前の作業リンク誘導ヘッドは、突然の精度向上によってICLにリンクするが、これは、応答がコンテキスト内に含まれる場合にのみ、ICLを考慮できる。しかし、大規模言語モデルにおける実用的なICLの重要な特性は、文脈から回答をコピーするだけでなく、文脈からタスクを解く方法をメタ学習する能力である。本稿では,学習中のモデルの回路のダイナミクスを解析することにより,このようなメタ学習能力がどのように獲得されるのかを実験的に明らかにする。具体的には、従来の研究からコピータスクを拡張して、モデルがサンプルからタスクを推論してクエリに応答する必要がある、インコンテキストメタ学習設定にします。興味深いことに、この設定では、そのような能力を得る過程には複数の位相があり、各位相に一意な回路が出現し、誘導ヘッドの単相変化とは対照的である。このような回路の出現は、大きな言語モデルで知られているいくつかの現象と関連しうる。

関連論文リスト

Provable In-Context Learning of Nonlinear Regression with Transformers [58.018629320233174]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。最近の研究はICLの背後にあるトレーニングダイナミクスを積極的に探求している。本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文参考訳（メタデータ） (2025-07-28T00:09:28Z)
Illusion or Algorithm? Investigating Memorization, Emergence, and Symbolic Processing in In-Context Learning [48.67380502157004]
大規模トランスフォーマー言語モデル(LM)は、Webスケールデータによる次世代の予測のみを訓練することで、幅広いタスクを解決できる。この能力の背後にあるメカニズムは、ICL(In-context Learning)と呼ばれ、議論の余地があり、理解が不十分なままである。
論文参考訳（メタデータ） (2025-05-16T08:50:42Z)
Understanding Knowledge Hijack Mechanism in In-context Learning through Associative Memory [37.93644115914534]
In-context Learning (ICL) は、大規模言語モデルが微調整なしで新しいタスクに適応できるようにする。本稿では,トークン予測における文脈内情報と事前学習したビッグラム知識のバランスについて検討する。
論文参考訳（メタデータ） (2024-12-16T05:33:05Z)
In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文参考訳（メタデータ） (2024-08-19T16:47:46Z)
Asymptotic theory of in-context learning by linear attention [33.53106537972063]
インコンテキスト学習はトランスフォーマーの成功の土台である。 ICLを成功させるためには、必要なサンプルの複雑さ、事前学習タスクの多様性、コンテキストの長さに関する質問は未解決のままである。
論文参考訳（メタデータ） (2024-05-20T03:24:24Z)
The mechanistic basis of data dependence and abrupt learning in an in-context classification task [0.3626013617212666]
本研究では,言語固有の特定の分布特性が,2種類の学習のトレードオフや同時出現を制御していることを示す。インコンテキスト学習は、誘導ヘッドの突然の出現によって駆動され、その後、インウェイト学習と競合する。注意に基づくネットワークの急激な遷移は、ICLを実現するのに必要な多層演算の特定の連鎖によって生じると提案する。
論文参考訳（メタデータ） (2023-12-03T20:53:41Z)
How Do Transformers Learn In-Context Beyond Simple Functions? A Case Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文参考訳（メタデータ） (2023-10-16T17:40:49Z)
SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文参考訳（メタデータ） (2023-07-15T08:33:08Z)
Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。 ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文参考訳（メタデータ） (2023-05-22T06:45:02Z)
The Learnability of In-Context Learning [16.182561312622315]
そこで本研究では,文脈内学習のための初歩的なPACベースのフレームワークを提案する。本フレームワークは,事前学習に適合する初期事前学習フェーズを含む。文脈内学習は、タスクを学習することよりも、タスクを特定することにあることを示す。
論文参考訳（メタデータ） (2023-03-14T13:28:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。