論文の概要: How Transformers Learn Causal Structure with Gradient Descent
- arxiv url: http://arxiv.org/abs/2402.14735v1
- Date: Thu, 22 Feb 2024 17:47:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 14:12:59.828748
- Title: How Transformers Learn Causal Structure with Gradient Descent
- Title(参考訳): 変圧器の経時変化による因果構造学習
- Authors: Eshaan Nichani, Alex Damian, Jason D. Lee
- Abstract要約: 自己注意はトランスフォーマーが因果構造をエンコードすることを可能にする。
我々は、潜在因果構造を学習する必要があるコンテキスト内学習タスクを導入する。
我々は、文脈内学習タスクで訓練されたトランスフォーマーが、様々な因果構造を回復できることを示す。
- 参考スコア(独自算出の注目度): 49.808194368781095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The incredible success of transformers on sequence modeling tasks can be
largely attributed to the self-attention mechanism, which allows information to
be transferred between different parts of a sequence. Self-attention allows
transformers to encode causal structure which makes them particularly suitable
for sequence modeling. However, the process by which transformers learn such
causal structure via gradient-based training algorithms remains poorly
understood. To better understand this process, we introduce an in-context
learning task that requires learning latent causal structure. We prove that
gradient descent on a simplified two-layer transformer learns to solve this
task by encoding the latent causal graph in the first attention layer. The key
insight of our proof is that the gradient of the attention matrix encodes the
mutual information between tokens. As a consequence of the data processing
inequality, the largest entries of this gradient correspond to edges in the
latent causal graph. As a special case, when the sequences are generated from
in-context Markov chains, we prove that transformers learn an induction head
(Olsson et al., 2022). We confirm our theoretical findings by showing that
transformers trained on our in-context learning task are able to recover a wide
variety of causal structures.
- Abstract(参考訳): シーケンスモデリングタスクにおけるトランスフォーマーの驚くべき成功は、多くの場合、シーケンスの異なる部分間で情報を転送できる自己アテンションメカニズムに起因している。
自己注意により、トランスフォーマーは因果構造をエンコードすることができ、シーケンスモデリングに特に適している。
しかし、変圧器が勾配に基づくトレーニングアルゴリズムによってそのような因果構造を学習する過程は、いまだによく分かっていない。
この過程をより深く理解するために、潜在因果構造を学習する必要がある文脈内学習タスクを導入する。
簡易な二層変圧器上の勾配降下は、第1の注意層に潜在因果グラフを符号化することにより、この課題を解くことができる。
我々の証明の重要な洞察は、注目行列の勾配がトークン間の相互情報を符号化していることである。
データ処理の不等式の結果、この勾配の最大のエントリは、潜在因果グラフのエッジに対応する。
特殊な場合として、インコンテキストマルコフ鎖からシーケンスが生成されるとき、トランスフォーマーが誘導ヘッドを学習することを証明する(olsson et al., 2022)。
コンテキスト内学習タスクでトレーニングされたトランスフォーマーが,多種多様な因果構造を回復できることを示し,理論的な知見を確認した。
関連論文リスト
- One-Layer Transformer Provably Learns One-Nearest Neighbor In Context [48.4979348643494]
本研究では、1層変圧器が1層近傍の規則を学習する能力について検討する。
単一のソフトマックスアテンション層は、ワンアレスト隣人のように振る舞うことをうまく学ぶことができる。
論文 参考訳(メタデータ) (2024-11-16T16:12:42Z) - On-Chip Learning via Transformer In-Context Learning [0.9353041869660692]
自己アテンションメカニズムでは、各ステップでメインメモリから事前トークンプロジェクションを転送する必要がある。
オンチップの塑性プロセッサを用いて自己注意を計算したニューロモルフィックデコーダのみのトランスモデルを提案する。
論文 参考訳(メタデータ) (2024-10-11T10:54:09Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Are More Layers Beneficial to Graph Transformers? [97.05661983225603]
現在のグラフ変換器は、深さの増大によるパフォーマンス向上のボトルネックに悩まされている。
ディープグラフ変換器は、グローバルな注目の消滅能力によって制限されている。
本稿では,符号化表現に部分構造トークンを明示的に用いたDeepGraphという新しいグラフトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-03-01T15:22:40Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Unveiling Transformers with LEGO: a synthetic reasoning task [23.535488809197787]
我々は、トランスフォーマーアーキテクチャが推論の連鎖に従うことを学ぶ方法について研究する。
一部のデータ構造では、訓練されたトランスフォーマーは、推論の連鎖に従う"ショートカット"ソリューションを見つける。
このようなショートカットが適切なアーキテクチャ修正やデータ準備によって防止できることが分かりました。
論文 参考訳(メタデータ) (2022-06-09T06:30:17Z) - Signal Propagation in Transformers: Theoretical Perspectives and the
Role of Rank Collapse [11.486545294602697]
我々はトランスフォーマーにおけるランク崩壊の原因と影響に新たな光を当てた。
トークン表現のランク崩壊は,クエリやキーの勾配がなくなることによって,トレーニングを妨げていることを示す。
論文 参考訳(メタデータ) (2022-06-07T09:07:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。