論文の概要: In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention
- arxiv url: http://arxiv.org/abs/2503.12734v1
- Date: Mon, 17 Mar 2025 02:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:35:40.034249
- Title: In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention
- Title(参考訳): In-Context Linear Regression Demystified:Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention
- Authors: Jianliang He, Xintian Pan, Siyu Chen, Zhuoran Yang,
- Abstract要約: 本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
- 参考スコア(独自算出の注目度): 52.159541540613915
- License:
- Abstract: We study how multi-head softmax attention models are trained to perform in-context learning on linear data. Through extensive empirical experiments and rigorous theoretical analysis, we demystify the emergence of elegant attention patterns: a diagonal and homogeneous pattern in the key-query (KQ) weights, and a last-entry-only and zero-sum pattern in the output-value (OV) weights. Remarkably, these patterns consistently appear from gradient-based training starting from random initialization. Our analysis reveals that such emergent structures enable multi-head attention to approximately implement a debiased gradient descent predictor -- one that outperforms single-head attention and nearly achieves Bayesian optimality up to proportional factor. Furthermore, compared to linear transformers, the softmax attention readily generalizes to sequences longer than those seen during training. We also extend our study to scenarios with non-isotropic covariates and multi-task linear regression. In the former, multi-head attention learns to implement a form of pre-conditioned gradient descent. In the latter, we uncover an intriguing regime where the interplay between head number and task number triggers a superposition phenomenon that efficiently resolves multi-task in-context learning. Our results reveal that in-context learning ability emerges from the trained transformer as an aggregated effect of its architecture and the underlying data distribution, paving the way for deeper understanding and broader applications of in-context learning.
- Abstract(参考訳): 本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
広汎な実験実験と厳密な理論的分析により、キークエリ(KQ)重みにおける対角的および均質的パターン、出力値(OV)重みにおける終入値のみおよびゼロサムパターンといった、エレガントな注意パターンの出現を決定づける。
注目すべきは、これらのパターンがランダム初期化から始まる勾配ベースのトレーニングから一貫して現れることである。
この解析により, 偏差勾配降下予測器を多面的に実装し, ベイズ最適度をほぼ比例的に達成できることがわかった。
さらに、線形変換器と比較して、ソフトマックスアテンションはトレーニング中に見られるものよりも長いシーケンスに容易に一般化する。
また、この研究を非等方的共変量とマルチタスク線形回帰のシナリオにまで拡張する。
前者では、マルチヘッドアテンションは、事前条件付き勾配勾配の形式を実装することを学ぶ。
後者では,タスク数とヘッダ数との相互作用が重畳現象を引き起こし,マルチタスクのインコンテキスト学習を効率的に解決する興味深い機構を明らかにする。
この結果から, 学習能力は, 学習内容の理解を深め, より広範に活用する上で, アーキテクチャと基礎となるデータ分布の集約的な効果として, 訓練されたトランスフォーマーから出現することが明らかとなった。
関連論文リスト
- Training Dynamics of In-Context Learning in Linear Attention [6.663503238373593]
In-context linear regression を訓練したマルチヘッド線形自己アテンションの勾配勾配ダイナミクスについて検討した。
我々は、線形注意の降下訓練中に、文脈内学習能力がどのように進化するかを特徴付ける。
論文 参考訳(メタデータ) (2025-01-27T18:03:00Z) - How Transformers Utilize Multi-Head Attention in In-Context Learning? A Case Study on Sparse Linear Regression [19.64743851296488]
本研究では、疎線形回帰問題を考察し、訓練されたマルチヘッドトランスがコンテキスト内学習を行う方法を検討する。
マルチヘッドの利用は層間における異なるパターンを示すことが実験的に明らかになった。
このような前処理列最適化アルゴリズムは、直交勾配勾配とリッジ回帰アルゴリズムを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-08-08T15:33:02Z) - Understanding Forgetting in Continual Learning with Linear Regression [21.8755265936716]
連続的な学習は、複数のタスクを逐次学習することに焦点を当てており、近年大きな注目を集めている。
線形回帰モデルにおいて, 線形回帰モデルをグラディエント・ディッセンス(Gradient Descent)を用いて, 忘れることの一般的な理論的解析を行う。
十分なデータサイズを考慮に入れれば、集団データ共分散行列の固有値が大きいタスクが後で訓練されるようなシーケンス内のタスクの配置は、忘れが増す傾向にあることを実証する。
論文 参考訳(メタデータ) (2024-05-27T18:33:37Z) - Asymptotic theory of in-context learning by linear attention [33.53106537972063]
インコンテキスト学習はトランスフォーマーの成功の土台である。
ICLを成功させるためには、必要なサンプルの複雑さ、事前学習タスクの多様性、コンテキストの長さに関する質問は未解決のままである。
論文 参考訳(メタデータ) (2024-05-20T03:24:24Z) - Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality [54.20763128054692]
マルチタスク線形回帰の文脈内学習のためのマルチヘッドソフトマックスアテンションモデルを訓練するための勾配流のダイナミクスについて検討する。
我々は,勾配流のダイナミックス中に,興味深い「タスク割り当て」現象が現れることを証明した。
論文 参考訳(メタデータ) (2024-02-29T18:43:52Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。