論文の概要: What Matters More For In-Context Learning under Matched Compute Budgets: Pretraining on Natural Text or Incorporating Targeted Synthetic Examples?
- arxiv url: http://arxiv.org/abs/2509.22947v1
- Date: Fri, 26 Sep 2025 21:27:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.948332
- Title: What Matters More For In-Context Learning under Matched Compute Budgets: Pretraining on Natural Text or Incorporating Targeted Synthetic Examples?
- Title(参考訳): 一致した計算予算下での文脈学習には何が重要か--自然文の事前学習や対象とする合成事例の導入-
- Authors: Mohammed Sabry, Anya Belz,
- Abstract要約: 本稿では、前向きコピー(インダクション)、後向きコピー(アンティ)、あるいはバランスの取れたミックスを事前学習ストリームに注入する軽量カリキュラムBi-Inductを紹介する。
我々は、0.13Bから1BのパラメータをイソFLOPでトレーニングし、 (i) 少数ショットICLベンチマーク、 (ii) ヘッドレベルテレメトリ、 (iii) 言語モデリングの難易度を評価した。
- 参考スコア(独自算出の注目度): 6.886536285117155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Does explicitly exercising the induction circuit during pretraining improve in-context learning (ICL), or is natural text sufficient when compute is held constant (iso-FLOPs)? To test whether targeted synthetic data can accelerate induction-head emergence and enhance ICL, we introduce Bi-Induct, a lightweight curriculum that injects forward-copy (Induction), backward-copy (Anti), or a balanced mix into the pretraining stream. We train models from 0.13B to 1B parameters under iso-FLOPs, evaluating (i) few-shot ICL benchmarks, (ii) head-level telemetry, and (iii) held-out language modeling perplexity. Our findings challenge the assumption that early induction circuit activation directly improves ICL. While Bi-Induct accelerates induction-head emergence at small scales, this does not consistently yield stronger generalization. On standard LM benchmarks, Bi-Induct matches natural-only training; on function-style ICL probes, the 1B natural-only performs best. Stress tests (e.g., label permutation, HITS@1 vs. HITS@3, 1 vs. 10 shots) preserve these trends. Telemetry shows larger natural-only models develop broader, earlier induction heads without explicit induction patterns. Anti-induction data fails to elicit meaningful activation. Perplexity penalties from synthetic data shrink with scale, suggesting larger models can absorb non-natural patterns with minimal cost. Crucially, ablating the top 2% of induction heads degrades ICL more than random ablations, especially for natural-only models, indicating more centralized, load-bearing circuits. Bi-Induct variants exhibit more redundant induction activity, implying different circuit utilization. Overall, inducing activation is not sufficient: ICL gains depend on these circuits becoming functionally necessary. These results underscore mechanism-aware pretraining diagnostics and data mixtures that foster load-bearing, not merely present, structure.
- Abstract(参考訳): 事前学習中に誘導回路を明示的に運動させることは、文脈内学習(ICL)を改善するのか、それとも、計算が一定に保たれたとき(so-FLOPs)に十分であるのか?
目的とする合成データが誘導ヘッドの出現を加速し、ICLを向上するかどうかを検証するために、前向きコピー(インダクション)、後向きコピー(アンティ)、バランスの取れたミックスを事前学習ストリームに注入する軽量カリキュラムBi-Inductを導入する。
我々は同型FLOPの下で0.13Bから1Bパラメータのモデルを訓練し、評価する。
(i)少数ショットICLベンチマーク
(二)ヘッドレベルテレメトリ、及び
(iii)言語モデリングの難易度を保留する。
本研究は,早期誘導回路の活性化がICLを直接的に改善するという仮定に挑戦する。
Bi-インダクトは小さなスケールで誘導ヘッドの出現を加速するが、これは一貫してより強い一般化をもたらすわけではない。
標準のLMベンチマークでは、Bi-Inductは自然言語のみのトレーニングと一致し、関数スタイルのICLプローブでは1Bの自然言語のみが最善である。
ストレステスト (例, ラベル置換, HITS@1 vs. HITS@3, 1 vs. 10) はこれらの傾向を保存している。
テレメトリは、より大型の天然物のみのモデルが、明示的な誘導パターンを伴わずにより広く、より早期に誘導ヘッドを発達させることを示している。
アンチインダクションデータは、意味のあるアクティベーションを引き出すことができない。
合成データからのパープレキシティのペナルティはスケールとともに縮小し、より大きなモデルは最小のコストで非自然なパターンを吸収することができることを示唆している。
重要なことに、誘導ヘッドの上位2%は、特に自然のみのモデルでは、ICLがランダムなアブレーションよりも劣化し、より集中的な負荷を持つ回路が示される。
バイインダクタンス(英語版)はより冗長な誘導活性を示し、異なる回路利用を示唆している。
ICLゲインはこれらの回路に依存して機能的に必要になる。
これらの結果は、単に存在するだけでなく、負荷分散を促進する事前学習診断とデータ混在を意識したメカニズムの基盤となる。
関連論文リスト
- Mitigating Spurious Correlations in LLMs via Causality-Aware Post-Training [57.03005244917803]
大規模言語モデル (LLMs) は、事前学習中に得られた素早い相関関係により、アウト・オブ・ディストリビューション (OOD) のサンプルで失敗することが多い。
ここでは、因果認識後学習(CAPT)を通して、このような素因的相関を緩和することを目的とする。
公式因果推論ベンチマークCLadderと論理推論データセットPrOntoQAの実験により、CAPTで微調整された3Bスケールの言語モデルでは、従来のSFTおよびより大きなLLMを分散処理(ID)およびOODタスクで上回る結果が得られた。
論文 参考訳(メタデータ) (2025-06-11T06:30:28Z) - Deeper Insights Without Updates: The Power of In-Context Learning Over Fine-Tuning [22.341935761925892]
ファインチューニングとインコンテキスト学習(ICL)は、タスク固有の知識で大きな言語モデルを出力する2つの一般的な方法である。
暗黙的なパターンを持つタスクに対して、ICLはこれらのパターンを微調整よりもはるかによくキャプチャする。
論文 参考訳(メタデータ) (2024-10-07T02:12:22Z) - On the Inductive Bias of Stacking Towards Improving Reasoning [50.225873619537765]
言語モデルのトレーニングを最大40%高速化できるMIDASと呼ばれる段階的スタック方式を提案する。
MIDASはトレーニング効率だけでなく、ダウンストリームタスクを改善するための誘導バイアスも備えている。
我々は、この帰納バイアスの根底にある理由を、ループモデルへの積み重ねの接続を探索することによって推測する。
論文 参考訳(メタデータ) (2024-09-27T17:58:21Z) - Bidirectional Awareness Induction in Autoregressive Seq2Seq Models [47.82947878753809]
双方向認識誘導(BAI)は、ネットワーク内の要素のサブセットであるPivotsを利用して、自己回帰的制約を破ることなく双方向学習を行う訓練手法である。
特に,イメージキャプションでは2.4CIDEr,ニューラルマシン翻訳では4.96BLEU,テキスト要約では1.16ROUGEの増加が確認された。
論文 参考訳(メタデータ) (2024-08-25T23:46:35Z) - Induction Heads as an Essential Mechanism for Pattern Matching in In-context Learning [12.911829891263263]
誘導ヘッドの最小アブレーションでもICL性能は抽象的パターン認識タスクで最大32%低下することを示す。
NLPタスクの場合、このアブレーションはモデルがサンプルから恩恵を受ける能力を大幅に低下させ、ゼロショットプロンプトに近い数ショットのICLパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-07-09T16:29:21Z) - Tripod: Three Complementary Inductive Biases for Disentangled Representation Learning [52.70210390424605]
本研究では,文献から選択した3つの帰納バイアスを持つニューラルネットワークオートエンコーダを提案する。
しかし、実際には、これらの帰納バイアスをインスタンス化する既存の技術を組み合わせることは、大きな利益をもたらすことに失敗する。
学習問題を単純化する3つの手法に適応し、不変性を安定化する鍵正則化項とクォーシュ縮退インセンティブを提案する。
結果のモデルであるTripodは、4つのイメージアンタングルメントベンチマークのスイートで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-16T04:52:41Z) - SIP: Injecting a Structural Inductive Bias into a Seq2Seq Model by Simulation [75.14793516745374]
本稿では, 構造的帰納バイアスをセック2セックモデルに効率よく注入し, 合成データの構造的変換をシミュレートする方法について述べる。
実験の結果,本手法は所望の帰納バイアスを付与し,FSTのようなタスクに対してより優れた数発学習を実現することがわかった。
論文 参考訳(メタデータ) (2023-10-01T21:19:12Z) - Self-ICL: Zero-Shot In-Context Learning with Self-Generated
Demonstrations [38.4166247280112]
Self-ICLは、ゼロショットICLを実行するためにLMの固有の機能をブートストラップするフレームワークである。
Self-ICLは平均精度と頭部比較の両方でゼロショットベースラインを上回っている。
論文 参考訳(メタデータ) (2023-05-24T11:22:34Z) - Bayesian Optimization of Catalysis With In-Context Learning [0.6576679530536251]
大規模言語モデル(LLM)は、文脈内学習によってゼロまたは少数例で正確な分類を行うことができる。
凍結LDMを用いた不確実性推定により、この能力を回帰に拡張する。
本研究では, 実験触媒と試験手順を自然言語のプロンプトとして表現し, 材料発見に適用する。
論文 参考訳(メタデータ) (2023-04-11T17:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。