Fugu-MT 論文翻訳(概要): How Transformers Learn Causal Structure with Gradient Descent

論文の概要: How Transformers Learn Causal Structure with Gradient Descent

arxiv url: http://arxiv.org/abs/2402.14735v1
Date: Thu, 22 Feb 2024 17:47:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 14:12:59.828748
Title: How Transformers Learn Causal Structure with Gradient Descent
Title（参考訳）: 変圧器の経時変化による因果構造学習
Authors: Eshaan Nichani, Alex Damian, Jason D. Lee
Abstract要約: 自己注意はトランスフォーマーが因果構造をエンコードすることを可能にする。我々は、潜在因果構造を学習する必要があるコンテキスト内学習タスクを導入する。我々は、文脈内学習タスクで訓練されたトランスフォーマーが、様々な因果構造を回復できることを示す。
参考スコア（独自算出の注目度）: 49.808194368781095
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The incredible success of transformers on sequence modeling tasks can be largely attributed to the self-attention mechanism, which allows information to be transferred between different parts of a sequence. Self-attention allows transformers to encode causal structure which makes them particularly suitable for sequence modeling. However, the process by which transformers learn such causal structure via gradient-based training algorithms remains poorly understood. To better understand this process, we introduce an in-context learning task that requires learning latent causal structure. We prove that gradient descent on a simplified two-layer transformer learns to solve this task by encoding the latent causal graph in the first attention layer. The key insight of our proof is that the gradient of the attention matrix encodes the mutual information between tokens. As a consequence of the data processing inequality, the largest entries of this gradient correspond to edges in the latent causal graph. As a special case, when the sequences are generated from in-context Markov chains, we prove that transformers learn an induction head (Olsson et al., 2022). We confirm our theoretical findings by showing that transformers trained on our in-context learning task are able to recover a wide variety of causal structures.
Abstract（参考訳）: シーケンスモデリングタスクにおけるトランスフォーマーの驚くべき成功は、多くの場合、シーケンスの異なる部分間で情報を転送できる自己アテンションメカニズムに起因している。自己注意により、トランスフォーマーは因果構造をエンコードすることができ、シーケンスモデリングに特に適している。しかし、変圧器が勾配に基づくトレーニングアルゴリズムによってそのような因果構造を学習する過程は、いまだによく分かっていない。この過程をより深く理解するために、潜在因果構造を学習する必要がある文脈内学習タスクを導入する。簡易な二層変圧器上の勾配降下は、第1の注意層に潜在因果グラフを符号化することにより、この課題を解くことができる。我々の証明の重要な洞察は、注目行列の勾配がトークン間の相互情報を符号化していることである。データ処理の不等式の結果、この勾配の最大のエントリは、潜在因果グラフのエッジに対応する。特殊な場合として、インコンテキストマルコフ鎖からシーケンスが生成されるとき、トランスフォーマーが誘導ヘッドを学習することを証明する(olsson et al., 2022)。コンテキスト内学習タスクでトレーニングされたトランスフォーマーが,多種多様な因果構造を回復できることを示し,理論的な知見を確認した。

関連論文リスト

How Transformers Learn Regular Language Recognition: A Theoretical Study on Training Dynamics and Implicit Bias [48.9399496805422]
我々は「偶対」と「パリティチェック」と呼ばれる正規言語認識のカテゴリにおける2つの代表的タスクに焦点をあてる。我々のゴールは、注意層と線形層からなる一層トランスフォーマーが、これらの課題をいかに解決するかを探求することである。
論文参考訳（メタデータ） (2025-05-02T00:07:35Z)
On the Robustness of Transformers against Context Hijacking for Linear Classification [26.1838836907147]
Transformer-based Large Language Models (LLM) は、強力なコンテキスト内学習能力を実証している。それらは、コンテキストハイジャックとして知られる、事実的に正しいコンテキストによって破壊される。十分に訓練された深部変圧器は、経験的観測と整合した高い強靭性を実現することができることを示す。
論文参考訳（メタデータ） (2025-02-21T17:31:00Z)
One-Layer Transformer Provably Learns One-Nearest Neighbor In Context [48.4979348643494]
本研究では、1層変圧器が1層近傍の規則を学習する能力について検討する。単一のソフトマックスアテンション層は、ワンアレスト隣人のように振る舞うことをうまく学ぶことができる。
論文参考訳（メタデータ） (2024-11-16T16:12:42Z)
On-Chip Learning via Transformer In-Context Learning [0.9353041869660692]
自己アテンションメカニズムでは、各ステップでメインメモリから事前トークンプロジェクションを転送する必要がある。オンチップの塑性プロセッサを用いて自己注意を計算したニューロモルフィックデコーダのみのトランスモデルを提案する。
論文参考訳（メタデータ） (2024-10-11T10:54:09Z)
Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。この設定における多層トランスの理論的解析はこれが初めてである。
論文参考訳（メタデータ） (2024-10-10T18:29:05Z)
Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文参考訳（メタデータ） (2024-09-09T18:10:26Z)
Are More Layers Beneficial to Graph Transformers? [97.05661983225603]
現在のグラフ変換器は、深さの増大によるパフォーマンス向上のボトルネックに悩まされている。ディープグラフ変換器は、グローバルな注目の消滅能力によって制限されている。本稿では,符号化表現に部分構造トークンを明示的に用いたDeepGraphという新しいグラフトランスフォーマーモデルを提案する。
論文参考訳（メタデータ） (2023-03-01T15:22:40Z)
Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文参考訳（メタデータ） (2022-12-15T09:21:21Z)
Unveiling Transformers with LEGO: a synthetic reasoning task [23.535488809197787]
我々は、トランスフォーマーアーキテクチャが推論の連鎖に従うことを学ぶ方法について研究する。一部のデータ構造では、訓練されたトランスフォーマーは、推論の連鎖に従う"ショートカット"ソリューションを見つける。このようなショートカットが適切なアーキテクチャ修正やデータ準備によって防止できることが分かりました。
論文参考訳（メタデータ） (2022-06-09T06:30:17Z)
Signal Propagation in Transformers: Theoretical Perspectives and the Role of Rank Collapse [11.486545294602697]
我々はトランスフォーマーにおけるランク崩壊の原因と影響に新たな光を当てた。トークン表現のランク崩壊は,クエリやキーの勾配がなくなることによって,トレーニングを妨げていることを示す。
論文参考訳（メタデータ） (2022-06-07T09:07:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。