論文の概要: Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers
- arxiv url: http://arxiv.org/abs/2409.10559v1
- Date: Mon, 9 Sep 2024 18:10:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-22 21:22:31.420753
- Title: Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers
- Title(参考訳): 誘導ヘッドの解離:変圧器の訓練ダイナミクスと特徴学習
- Authors: Siyu Chen, Heejune Sheen, Tianhao Wang, Zhuoran Yang,
- Abstract要約: 我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
- 参考スコア(独自算出の注目度): 54.20763128054692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning (ICL) is a cornerstone of large language model (LLM) functionality, yet its theoretical foundations remain elusive due to the complexity of transformer architectures. In particular, most existing work only theoretically explains how the attention mechanism facilitates ICL under certain data models. It remains unclear how the other building blocks of the transformer contribute to ICL. To address this question, we study how a two-attention-layer transformer is trained to perform ICL on $n$-gram Markov chain data, where each token in the Markov chain statistically depends on the previous $n$ tokens. We analyze a sophisticated transformer model featuring relative positional embedding, multi-head softmax attention, and a feed-forward layer with normalization. We prove that the gradient flow with respect to a cross-entropy ICL loss converges to a limiting model that performs a generalized version of the induction head mechanism with a learned feature, resulting from the congruous contribution of all the building blocks. In the limiting model, the first attention layer acts as a $\mathit{copier}$, copying past tokens within a given window to each position, and the feed-forward network with normalization acts as a $\mathit{selector}$ that generates a feature vector by only looking at informationally relevant parents from the window. Finally, the second attention layer is a $\mathit{classifier}$ that compares these features with the feature at the output position, and uses the resulting similarity scores to generate the desired output. Our theory is further validated by experiments.
- Abstract(参考訳): In-context Learning (ICL) は、大きな言語モデル(LLM)機能の基盤であるが、その理論的基礎はトランスフォーマーアーキテクチャの複雑さのために解明されていない。
特に、既存のほとんどの研究は、注意機構が特定のデータモデルの下でICLをどのように促進するかを理論的に説明するだけである。
トランスの他の構成要素がICLにどのように貢献するかは、まだ不明である。
この問題に対処するため、2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するように訓練されている場合、マルコフ連鎖の各トークンは、統計的に以前の$n$トークンに依存する。
相対的な位置埋め込み、マルチヘッドソフトマックスアテンション、正規化によるフィードフォワード層を特徴とする洗練されたトランスモデルを解析する。
クロスエントロピーICL損失に対する勾配流は、学習された特徴を持つ誘導ヘッド機構の一般化バージョンを実行する制限モデルに収束し、すべてのビルディングブロックの連続的な寄与から生じる。
制限モデルでは、第1の注目層が$\mathit{copier}$として働き、指定されたウィンドウ内で過去のトークンをそれぞれの位置にコピーし、正規化されたフィードフォワードネットワークは$\mathit{selector}$として機能ベクターを生成し、ウィンドウから情報に関連のある親を見るだけで機能ベクターを生成する。
最後に、第2の注目層は$\mathit{classifier}$で、これらの特徴と出力位置のフィーチャを比較し、結果の類似度スコアを使用して所望の出力を生成する。
我々の理論は実験によってさらに検証される。
関連論文リスト
- Dissecting the Interplay of Attention Paths in a Statistical Mechanics Theory of Transformers [14.59741397670484]
本稿では,トランスフォーマーと密接な関係を持つ深層多頭部自己注意ネットワークについて考察する。
このモデルでベイズ学習の統計力学理論を開発する。
合成および実世界のシーケンス分類タスクについて,本研究の成果を確認した。
論文 参考訳(メタデータ) (2024-05-24T20:34:18Z) - Toward a Theory of Tokenization in LLMs [26.516041872337887]
本稿では, 簡単なデータ生成プロセスにおいて, 変圧器の挙動を研究することによって, 理論的観点からトークン化について検討する。
変換器によって学習された最も単純なユニグラムモデルでさえ、$ktextth$-order Markovソースから引き出されたシーケンスの確率を最適にモデル化できることを示す。
論文 参考訳(メタデータ) (2024-04-12T09:01:14Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z) - Supervised Quantile Normalization for Low-rank Matrix Approximation [50.445371939523305]
我々は、$X$ の値と $UV$ の値を行ワイズで操作できる量子正規化演算子のパラメータを学習し、$X$ の低ランク表現の質を改善する。
本稿では,これらの手法が合成およびゲノムデータセットに適用可能であることを実証する。
論文 参考訳(メタデータ) (2020-02-08T21:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。