論文の概要: From Shortcut to Induction Head: How Data Diversity Shapes Algorithm Selection in Transformers
- arxiv url: http://arxiv.org/abs/2512.18634v1
- Date: Sun, 21 Dec 2025 08:10:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.43103
- Title: From Shortcut to Induction Head: How Data Diversity Shapes Algorithm Selection in Transformers
- Title(参考訳): ショートカットからインダクションヘッド:トランスフォーマーにおけるデータ多様性のアルゴリズム選択方法
- Authors: Ryotaro Kawata, Yujin Song, Alberto Bietti, Naoki Nishikawa, Taiji Suzuki, Samuel Vaiter, Denny Wu,
- Abstract要約: 本研究では, 事前学習したデータ分布の選択が, 浅層変圧器を一方の行動に向ける方法について検討する。
その結果,事前学習したトランスフォーマーのアルゴリズム的バイアスに光を当て,学習行動のデータ駆動制御に関する概念的ガイドラインを提供することができた。
- 参考スコア(独自算出の注目度): 67.02076505996284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers can implement both generalizable algorithms (e.g., induction heads) and simple positional shortcuts (e.g., memorizing fixed output positions). In this work, we study how the choice of pretraining data distribution steers a shallow transformer toward one behavior or the other. Focusing on a minimal trigger-output prediction task -- copying the token immediately following a special trigger upon its second occurrence -- we present a rigorous analysis of gradient-based training of a single-layer transformer. In both the infinite and finite sample regimes, we prove a transition in the learned mechanism: if input sequences exhibit sufficient diversity, measured by a low ``max-sum'' ratio of trigger-to-trigger distances, the trained model implements an induction head and generalizes to unseen contexts; by contrast, when this ratio is large, the model resorts to a positional shortcut and fails to generalize out-of-distribution (OOD). We also reveal a trade-off between the pretraining context length and OOD generalization, and derive the optimal pretraining distribution that minimizes computational cost per sample. Finally, we validate our theoretical predictions with controlled synthetic experiments, demonstrating that broadening context distributions robustly induces induction heads and enables OOD generalization. Our results shed light on the algorithmic biases of pretrained transformers and offer conceptual guidelines for data-driven control of their learned behaviors.
- Abstract(参考訳): 変換器は一般化可能なアルゴリズム(例:誘導ヘッド)と単純な位置ショートカット(例:固定出力位置を記憶する)の両方を実装することができる。
本研究では,データ分布の事前学習の選択が,浅層変圧器を一方の行動あるいは他方に向ける方法について検討する。
最小限のトリガ出力予測タスク(第2のトリガの直後にトークンをコピーする)に注目して、単一層トランスの勾配に基づくトレーニングを厳密に分析する。
無限値と有限値の両方のサンプル状態において、入力列が十分な多様性を示し、低い ``max-sum' 比のトリガー・ツー・トリガー距離で測定された場合、トレーニングされたモデルは誘導ヘッドを実装し、未知の文脈に一般化する。
また、事前学習コンテキスト長とOOD一般化のトレードオフを明らかにし、サンプル当たりの計算コストを最小化する最適事前学習分布を導出する。
最後に、制御された合成実験により理論的予測を検証し、文脈分布の拡大が誘導ヘッドを強固に誘導し、OODの一般化を可能にすることを示す。
その結果,事前学習したトランスフォーマーのアルゴリズム的バイアスに光を当て,学習行動のデータ駆動制御に関する概念的ガイドラインを提供することができた。
関連論文リスト
- How Transformers Learn In-Context Recall Tasks? Optimality, Training Dynamics and Generalization [23.759737527800585]
コンテクスト内リコールタスクで訓練された変換器の近似能力,収束速度,収束挙動について検討した。
トレーニングされたトランスフォーマーは,分布外分布の一般化,すなわち人口分布外のサンプルへの一般化を示す。
論文 参考訳(メタデータ) (2025-05-21T01:26:44Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527835]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - SIP: Injecting a Structural Inductive Bias into a Seq2Seq Model by Simulation [75.14793516745374]
本稿では, 構造的帰納バイアスをセック2セックモデルに効率よく注入し, 合成データの構造的変換をシミュレートする方法について述べる。
実験の結果,本手法は所望の帰納バイアスを付与し,FSTのようなタスクに対してより優れた数発学習を実現することがわかった。
論文 参考訳(メタデータ) (2023-10-01T21:19:12Z) - Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文 参考訳(メタデータ) (2023-06-16T15:50:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。