論文の概要: How Transformers Learn Causal Structure with Gradient Descent
- arxiv url: http://arxiv.org/abs/2402.14735v1
- Date: Thu, 22 Feb 2024 17:47:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 14:12:59.828748
- Title: How Transformers Learn Causal Structure with Gradient Descent
- Title(参考訳): 変圧器の経時変化による因果構造学習
- Authors: Eshaan Nichani, Alex Damian, Jason D. Lee
- Abstract要約: 自己注意はトランスフォーマーが因果構造をエンコードすることを可能にする。
我々は、潜在因果構造を学習する必要があるコンテキスト内学習タスクを導入する。
我々は、文脈内学習タスクで訓練されたトランスフォーマーが、様々な因果構造を回復できることを示す。
- 参考スコア(独自算出の注目度): 49.808194368781095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The incredible success of transformers on sequence modeling tasks can be
largely attributed to the self-attention mechanism, which allows information to
be transferred between different parts of a sequence. Self-attention allows
transformers to encode causal structure which makes them particularly suitable
for sequence modeling. However, the process by which transformers learn such
causal structure via gradient-based training algorithms remains poorly
understood. To better understand this process, we introduce an in-context
learning task that requires learning latent causal structure. We prove that
gradient descent on a simplified two-layer transformer learns to solve this
task by encoding the latent causal graph in the first attention layer. The key
insight of our proof is that the gradient of the attention matrix encodes the
mutual information between tokens. As a consequence of the data processing
inequality, the largest entries of this gradient correspond to edges in the
latent causal graph. As a special case, when the sequences are generated from
in-context Markov chains, we prove that transformers learn an induction head
(Olsson et al., 2022). We confirm our theoretical findings by showing that
transformers trained on our in-context learning task are able to recover a wide
variety of causal structures.
- Abstract(参考訳): シーケンスモデリングタスクにおけるトランスフォーマーの驚くべき成功は、多くの場合、シーケンスの異なる部分間で情報を転送できる自己アテンションメカニズムに起因している。
自己注意により、トランスフォーマーは因果構造をエンコードすることができ、シーケンスモデリングに特に適している。
しかし、変圧器が勾配に基づくトレーニングアルゴリズムによってそのような因果構造を学習する過程は、いまだによく分かっていない。
この過程をより深く理解するために、潜在因果構造を学習する必要がある文脈内学習タスクを導入する。
簡易な二層変圧器上の勾配降下は、第1の注意層に潜在因果グラフを符号化することにより、この課題を解くことができる。
我々の証明の重要な洞察は、注目行列の勾配がトークン間の相互情報を符号化していることである。
データ処理の不等式の結果、この勾配の最大のエントリは、潜在因果グラフのエッジに対応する。
特殊な場合として、インコンテキストマルコフ鎖からシーケンスが生成されるとき、トランスフォーマーが誘導ヘッドを学習することを証明する(olsson et al., 2022)。
コンテキスト内学習タスクでトレーニングされたトランスフォーマーが,多種多様な因果構造を回復できることを示し,理論的な知見を確認した。
関連論文リスト
- Can Transformers Learn Sequential Function Classes In Context? [0.0]
インコンテキスト学習(ICL)は、NLPにおけるトランスフォーマーモデルの能力に革命をもたらした。
我々は,新しいスライディングウィンドウシーケンシャル関数クラスを導入し,GPT-2アーキテクチャを用いた玩具サイズのトランスフォーマーを用いて実験を行った。
解析により,これらのモデルが非テキストシーケンシャル関数クラスでトレーニングされた場合,実際にICLを活用できることが示唆された。
論文 参考訳(メタデータ) (2023-12-19T22:57:13Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Are More Layers Beneficial to Graph Transformers? [97.05661983225603]
現在のグラフ変換器は、深さの増大によるパフォーマンス向上のボトルネックに悩まされている。
ディープグラフ変換器は、グローバルな注目の消滅能力によって制限されている。
本稿では,符号化表現に部分構造トークンを明示的に用いたDeepGraphという新しいグラフトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-03-01T15:22:40Z) - What Makes for Good Tokenizers in Vision Transformer? [62.44987486771936]
変圧器は自己注意を用いて対関係を抽出することができる。
優れたトークンライザとなるものは、コンピュータビジョンではよく理解されていない。
Tokens (MoTo) を横断する変調は、正規化によるトークン間モデリング機能を備えている。
TokenPropの正規化対象は、標準トレーニング体制で採用されている。
論文 参考訳(メタデータ) (2022-12-21T15:51:43Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Unveiling Transformers with LEGO: a synthetic reasoning task [23.535488809197787]
我々は、トランスフォーマーアーキテクチャが推論の連鎖に従うことを学ぶ方法について研究する。
一部のデータ構造では、訓練されたトランスフォーマーは、推論の連鎖に従う"ショートカット"ソリューションを見つける。
このようなショートカットが適切なアーキテクチャ修正やデータ準備によって防止できることが分かりました。
論文 参考訳(メタデータ) (2022-06-09T06:30:17Z) - Signal Propagation in Transformers: Theoretical Perspectives and the
Role of Rank Collapse [11.486545294602697]
我々はトランスフォーマーにおけるランク崩壊の原因と影響に新たな光を当てた。
トークン表現のランク崩壊は,クエリやキーの勾配がなくなることによって,トレーニングを妨げていることを示す。
論文 参考訳(メタデータ) (2022-06-07T09:07:24Z) - On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。
硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文 参考訳(メタデータ) (2021-06-30T17:09:47Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。