論文の概要: Predicting the Formation of Induction Heads
- arxiv url: http://arxiv.org/abs/2511.16893v1
- Date: Fri, 21 Nov 2025 02:17:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.859525
- Title: Predicting the Formation of Induction Heads
- Title(参考訳): 誘導ヘッドの形成予測
- Authors: Tatsuya Aoyama, Ethan Gotlieb Wilcox, Nathan Schneider,
- Abstract要約: バッチサイズとコンテキストサイズを組み合わせた単純な方程式は,IHsが生成する点を予測する。
IH生成には, 高いビッグラム繰り返し周波数と信頼性の局所的依存性が十分だが, 周波数と信頼性が低い場合には, 因果性や分布物の形状が変化する。
- 参考スコア(独自算出の注目度): 8.347574456877913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Arguably, specialized attention heads dubbed induction heads (IHs) underlie the remarkable in-context learning (ICL) capabilities of modern language models (LMs); yet, a precise characterization of their formation remains unclear. In this study, we investigate the relationship between statistical properties of training data (for both natural and synthetic data) and IH formation. We show that (1) a simple equation combining batch size and context size predicts the point at which IHs form; (2) surface bigram repetition frequency and reliability strongly affect the formation of IHs, and we find a precise Pareto frontier in terms of these two values; and (3) local dependency with high bigram repetition frequency and reliability is sufficient for IH formation, but when the frequency and reliability are low, categoriality and the shape of the marginal distribution matter.
- Abstract(参考訳): 現代の言語モデル (LM) の顕著な文脈内学習能力(ICL) を実現するため, 誘導頭部 (IHs) と呼ばれる特別な注意を払っているのであろうが, 正確な特徴は明らかではない。
本研究では,学習データ(自然データと合成データの両方)の統計特性とIH生成との関係について検討した。
1) バッチサイズとコンテキストサイズを組み合わせた単純な方程式はIHsを形成する点を予測し,(2) 表面のビッグラム繰り返し頻度と信頼性はIHsの形成に強く影響し, (3) 高いビッグラム反復頻度と信頼性を持つ局所的依存性はIH形成に十分である。
関連論文リスト
- Large Learning Rates Simultaneously Achieve Robustness to Spurious Correlations and Compressibility [46.171357375793235]
高い学習率を高い相関性とネットワーク圧縮性を同時に達成するためのファシリテータとして同定する。
大規模な学習速度は、不変特徴利用、クラス分離、アクティベーション空間といった望ましい表現特性を生成する。
この現象のメカニズムを調査した結果,大きな学習率下での偏りを伴うサンプルの確実な誤予測の重要性が示唆された。
論文 参考訳(メタデータ) (2025-07-23T17:59:02Z) - Robust Molecular Property Prediction via Densifying Scarce Labeled Data [53.24886143129006]
薬物発見において、研究を進める上で最も重要な化合物は、しばしば訓練セットを越えている。
本稿では, ラベル付きデータを利用して, 分布内データ(ID)と分布外データ(OOD)を補間する2段階最適化手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T15:27:40Z) - Contextualization and Generalization in Entity and Relation Extraction [0.0]
本研究では、訓練中に見えない事実への一般化に関する最先端モデルの振る舞いについて検討する。
従来のベンチマークは、トレーニングとモデル評価に使用される言及と関係の間に重要な語彙的重複を示す。
本稿では,トレーニングセットと重複する言及と関連性に基づいて,パフォーマンスを分離するための実証的研究を提案する。
論文 参考訳(メタデータ) (2022-06-15T14:16:42Z) - Optimal regularizations for data generation with probabilistic graphical
models [0.0]
経験的に、よく調和された正規化スキームは、推論されたモデルの品質を劇的に改善する。
生成的ペアワイドグラフィカルモデルの最大Aポストエリオーリ(MAP)推論におけるL2とL1の正規化について検討する。
論文 参考訳(メタデータ) (2021-12-02T14:45:16Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Correct block-design experiments mitigate temporal correlation bias in
EEG classification [68.85562949901077]
[1]の主主張は極めて過大評価されており、他の分析は間違った方法論的選択によって深刻な欠陥を負っていることを示す。
脳波の時間相関が2つの実験環境で同じモデルをテストすることによって分類精度に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2020-11-25T22:25:21Z) - Precise Tradeoffs in Adversarial Training for Linear Regression [55.764306209771405]
本稿では,ガウス的特徴を伴う線形回帰の文脈における対人訓練の役割を,正確かつ包括的に理解する。
我々は,同時代のミニマックス対逆訓練手法によって達成された標準/ロバスト精度とそれに対応するトレードオフを正確に特徴づける。
逆行訓練アルゴリズムの理論は、様々な要因(トレーニングデータのサイズや品質、モデルの過度化など)がこれらの2つの競合するアキュラシー間のトレードオフにどのように影響するかを厳密に研究する上で役立ちます。
論文 参考訳(メタデータ) (2020-02-24T19:01:47Z) - Robust Generative Restricted Kernel Machines using Weighted Conjugate
Feature Duality [11.68800227521015]
制限カーネルマシン(RKM)のフレームワークにおける重み付き共役特徴双対性を導入する。
RKMの定式化により、古典的なロバスト統計からメソッドを簡単に統合できる。
実験により、トレーニングデータに汚染が存在する場合、重み付けされたRKMはクリーンな画像を生成することができることが示された。
論文 参考訳(メタデータ) (2020-02-04T09:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。