論文の概要: Temporal Dependencies in In-Context Learning: The Role of Induction Heads
- arxiv url: http://arxiv.org/abs/2604.01094v1
- Date: Wed, 01 Apr 2026 16:21:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.084781
- Title: Temporal Dependencies in In-Context Learning: The Role of Induction Heads
- Title(参考訳): 文脈内学習における時間的依存--誘導頭部の役割
- Authors: Anooshka Bajaj, Deven Mahesh Mistry, Sahaj Singh Maini, Yash Aggarwal, Billy Dickson, Zoran Tiganj,
- Abstract要約: 入力シーケンス内の繰り返しトークンを即座に追従するトークンにピーク確率を割り当て、シリアルリコールのようなパターンを一貫して表示する。
本研究では,従来のトークン発生にともなうトークンに係わる特殊注意ヘッドである誘導ヘッドが,この現象において重要な役割を担っていることを示す。
- 参考スコア(独自算出の注目度): 4.433315630787157
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) exhibit strong in-context learning capabilities, but how they track and retrieve information from context remains underexplored. Drawing on the free recall paradigm in cognitive science (where participants recall list items in any order), we show that several open-source LLMs consistently display a serial-recall-like pattern, assigning peak probability to tokens that immediately follow a repeated token in the input sequence. Through systematic ablation experiments, we show that induction heads, specialized attention heads that attend to the token following a previous occurrence of the current token, play an important role in this phenomenon. Removing heads with a high induction score substantially reduces the +1 lag bias, whereas ablating random heads does not reproduce the same reduction. We also show that removing heads with high induction scores impairs the performance of models prompted to do serial recall using few-shot learning to a larger extent than removing random heads. Our findings highlight a mechanistically specific connection between induction heads and temporal context processing in transformers, suggesting that these heads are especially important for ordered retrieval and serial-recall-like behavior during in-context learning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コンテキスト内学習能力が強いが、どのようにしてコンテキストから情報を追跡し、取り出すかは未解明のままである。
認知科学におけるフリーリコールのパラダイム(参加者が任意の順序でリスト項目をリコールする)に基づいて、いくつかのオープンソースLCMが連続的にシリアルリコールのようなパターンを表示し、入力シーケンス内の繰り返しトークンを即座に追従するトークンにピーク確率を割り当てていることを示す。
組織的アブレーション実験により,従来のトークン発生にともなうトークンに付随する誘導ヘッド,特に注目ヘッドが,この現象において重要な役割を担っていることが明らかとなった。
高い誘導スコアで頭部を除去することは+1ラグバイアスを大幅に減少させるが、無作為な頭部はそれと同じ低下を再現しない。
また,高い誘導スコアを持つ頭部の除去は,ランダムな頭部の除去よりも,数発の学習を用いて連続リコールを行うモデルの性能を損なうことを示した。
本研究は, インコンテクスト学習において, 命令検索やシリアルリコールのような動作において, トランスフォーマにおける誘導頭部と時間的コンテキスト処理の機械的関係が特に重要であることを示唆するものである。
関連論文リスト
- Induction Head Toxicity Mechanistically Explains Repetition Curse in Large Language Models [24.666925550391024]
我々は誘導ヘッドを繰り返しの呪いのキードライバーとみなす。
本稿では,誘導ヘッドの世代別優位性を抑えるため,注目頭部規則化手法を提案する。
論文 参考訳(メタデータ) (2025-05-17T03:09:33Z) - Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。
我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。
その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文 参考訳(メタデータ) (2024-07-25T07:10:31Z) - From Loops to Oops: Fallback Behaviors of Language Models Under Uncertainty [67.81977289444677]
大型言語モデル(LLM)は幻覚やシーケンスの繰り返しのような望ましくない振る舞いを示すことが多い。
転倒行動(シークエンス反復、退化テキスト、幻覚)を分類し、それらを広範囲に分析する。
我々の実験では、これらのすべての軸にまたがる、明確な、一貫したフォールバック動作の順序が明らかになりました。
論文 参考訳(メタデータ) (2024-07-08T16:13:42Z) - Retrieval Head Mechanistically Explains Long-Context Factuality [56.78951509492645]
我々は,検索ヘッドをダブする特別なタイプの注意ヘッドが,主に情報検索に責任があることを実証した。
本研究は,検索ヘッドが思考の連鎖(CoT)推論に強く影響していることを示し,モデルが質問や以前生成した文脈を頻繁に参照する必要があることを示す。
我々は、幻覚の低減、推論の改善、KVキャッシュの圧縮に関する今後の研究を促進すると信じている。
論文 参考訳(メタデータ) (2024-04-24T00:24:03Z) - Repetition In Repetition Out: Towards Understanding Neural Text
Degeneration from the Data Perspective [91.14291142262262]
この研究は、データの観点から、単純で基本的な説明を提示する。
予備調査では, 退化問題とトレーニングデータにおける反復の有無との間には強い相関関係がみられた。
実験の結果,訓練データにおける繰り返しのペナルティ化は,より大きなモデルサイズや命令のチューニングを考慮しても重要な課題であることがわかった。
論文 参考訳(メタデータ) (2023-10-16T09:35:42Z) - In-context Learning and Induction Heads [5.123049926855312]
インダクションヘッド(Induction Head)は、トークンシーケンスを完了するための単純なアルゴリズムを実装するアテンションヘッドである。
インテキスト学習能力の急激な増加に伴い, 誘導頭部は, ほぼ同程度に発達することがわかった。
論文 参考訳(メタデータ) (2022-09-24T00:43:19Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。