論文の概要: Attention with Markov: A Framework for Principled Analysis of Transformers via Markov Chains
- arxiv url: http://arxiv.org/abs/2402.04161v2
- Date: Mon, 21 Jul 2025 14:23:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.616942
- Title: Attention with Markov: A Framework for Principled Analysis of Transformers via Markov Chains
- Title(参考訳): Markovへの注意: Markov Chainsによるトランスフォーマーの原則分析フレームワーク
- Authors: Ashok Vardhan Makkuva, Marco Bondaschi, Adway Girish, Alliot Nagle, Martin Jaggi, Hyeji Kim, Michael Gastpar,
- Abstract要約: マルコフ連鎖を用いた変圧器の原理解析のための新しい枠組みを提案する。
データ特性とモデルアーキテクチャに基づくグローバルミニマ(ビグラム)と悪いローカルミニマ(ユニグラム)の存在を示す。
- 参考スコア(独自算出の注目度): 45.84704083061562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention-based transformers have achieved tremendous success across a variety of disciplines including natural languages. To deepen our understanding of their sequential modeling capabilities, there is a growing interest in using Markov input processes to study them. A key finding is that when trained on first-order Markov chains, transformers with two or more layers consistently develop an induction head mechanism to estimate the in-context bigram conditional distribution. In contrast, single-layer transformers, unable to form an induction head, directly learn the Markov kernel but often face a surprising challenge: they become trapped in local minima representing the unigram distribution, whereas deeper models reliably converge to the ground-truth bigram. While single-layer transformers can theoretically model first-order Markov chains, their empirical failure to learn this simple kernel in practice remains a curious phenomenon. To explain this contrasting behavior of single-layer models, in this paper we introduce a new framework for a principled analysis of transformers via Markov chains. Leveraging our framework, we theoretically characterize the loss landscape of single-layer transformers and show the existence of global minima (bigram) and bad local minima (unigram) contingent on data properties and model architecture. We precisely delineate the regimes under which these local optima occur. Backed by experiments, we demonstrate that our theoretical findings are in congruence with the empirical results. Finally, we outline several open problems in this arena. Code is available at https://github.com/Bond1995/Markov .
- Abstract(参考訳): 注意に基づくトランスフォーマーは、自然言語を含む様々な分野において大きな成功を収めてきた。
逐次モデリング能力の理解を深めるために、マルコフの入力プロセスを使ってそれらを研究することへの関心が高まっている。
鍵となる発見は、一階のマルコフ連鎖で訓練すると、2つ以上の層を持つ変圧器が常にインコンテキストのビッグラム条件分布を推定する誘導ヘッド機構を開発することである。
対照的に、誘導ヘッドを形成することができない単層変圧器はマルコフ核を直接学習するが、しばしば驚くべき課題に直面している。
単層変圧器は理論上一階マルコフ連鎖をモデル化できるが、この単純な核を実際に学べなかった経験的失敗は興味深い現象である。
単一層モデルの対照的な振る舞いを説明するために,マルコフ連鎖を用いた変圧器の原理解析のための新しい枠組みを提案する。
この枠組みを応用して、単層トランスの損失景観を理論的に特徴付け、データ特性とモデルアーキテクチャに基づいて、グローバルなミニマ(ビグラム)と悪いローカルミニマ(ユニグラム)の存在を示す。
我々はこれらの局地的最適が生じる体制を正確に記述する。
実験により,実験結果と理論的な結果が一致していることが実証された。
最後に、この領域におけるいくつかのオープンな問題を概説する。
コードはhttps://github.com/Bond1995/Markov で入手できる。
関連論文リスト
- Transformers as Multi-task Learners: Decoupling Features in Hidden Markov Models [12.112842686827669]
トランスフォーマーベースのモデルは、幅広いタスクにわたってシーケンス学習において顕著な能力を示している。
マルチタスク一般化能力の基盤となるメカニズムを明らかにするために,トランスフォーマーの階層的挙動について検討する。
我々の明示的な構成は経験的観察と密接に一致し、様々なタスクにわたるシーケンス学習におけるトランスフォーマーの有効性と効率の理論的支援を提供する。
論文 参考訳(メタデータ) (2025-06-02T17:39:31Z) - Enhancing Transformer with GNN Structural Knowledge via Distillation: A Novel Approach [1.4582633500696451]
本稿では,GNN教師モデルからトランスフォーマー学生モデルへ大規模構造知識を伝達する新しい知識蒸留フレームワークを提案する。
このフレームワークは、マイクロマクロ蒸留損失とマルチスケール機能アライメントにより、GNNとトランスフォーマーのアーキテクチャギャップを効果的に橋渡しする。
論文 参考訳(メタデータ) (2025-02-27T05:14:47Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Transformers on Markov Data: Constant Depth Suffices [25.83132046480226]
我々は、kth Markovプロセスから引き出されたデータに対するトランスフォーマーの挙動について検討する。
固定深さと1層あたり1ドルヘッドを持つ変圧器は、kth Markovソースから引き出されたシーケンスに対して、低いテスト損失を達成できることがわかった。
論文 参考訳(メタデータ) (2024-07-25T01:07:09Z) - Local to Global: Learning Dynamics and Effect of Initialization for Transformers [20.02103237675619]
我々は一階マルコフ連鎖と単層変圧器に焦点をあてる。
我々は,次世代の予測損失に基づいてトレーニングしたトランスフォーマーパラメータが,グローバルあるいはローカルのミニマに収束可能であることを証明した。
論文 参考訳(メタデータ) (2024-06-05T08:57:41Z) - Toward a Theory of Tokenization in LLMs [26.516041872337887]
本稿では, 簡単なデータ生成プロセスにおいて, 変圧器の挙動を研究することによって, 理論的観点からトークン化について検討する。
変換器によって学習された最も単純なユニグラムモデルでさえ、$ktextth$-order Markovソースから引き出されたシーケンスの確率を最適にモデル化できることを示す。
論文 参考訳(メタデータ) (2024-04-12T09:01:14Z) - From Self-Attention to Markov Models: Unveiling the Dynamics of
Generative Transformers [41.82477691012942]
本研究では,一連のプロンプトと関連する出力データから1層自己注意モデルを学習する。
まず、自己注意機構とマルコフモデルとの正確なマッピングを確立する。
我々は,自己注意による生成過程が崩壊し,トークンの限られた部分集合をサンプリングする,興味深い勝者とあらゆる現象を特徴付ける。
論文 参考訳(メタデータ) (2024-02-21T03:51:34Z) - The Evolution of Statistical Induction Heads: In-Context Learning Markov
Chains [28.41876902994335]
In-context Learning (ICL) 機能がどのように出現するかを研究するために,Markov Chain シーケンスモデリングタスクを導入する。
このタスクで訓練されたトランスフォーマーは、正確な次の確率を計算するための統計的誘導ヘッドを形成する。
本研究では, 変圧器層間の相互作用から学習結果が得られたことを示し, より単純なユニグラム解の存在が最終ビッグラム解の形成を遅らせる可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-16T18:28:36Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Revisiting Over-smoothing in BERT from the Perspective of Graph [111.24636158179908]
近年,トランスフォーマーモデルにおける過度に平滑化現象が視覚と言語の両方で観測されている。
層正規化はトランスフォーマーモデルにおける過度に平滑な問題において重要な役割を果たす。
異なる層からの表現を適応的に組み合わせ、出力をより多様にする階層的融合戦略を考察する。
論文 参考訳(メタデータ) (2022-02-17T12:20:52Z) - Rethinking Architecture Design for Tackling Data Heterogeneity in
Federated Learning [53.73083199055093]
注意に基づくアーキテクチャ(例えばTransformers)は、分散シフトに対してかなり堅牢であることを示す。
我々の実験は、畳み込みネットワークをトランスフォーマーに置き換えることによって、過去のデバイスを壊滅的に忘れることを大幅に減らせることを示した。
論文 参考訳(メタデータ) (2021-06-10T21:04:18Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。