論文の概要: The Asymptotic Behavior of Attention in Transformers
- arxiv url: http://arxiv.org/abs/2412.02682v2
- Date: Thu, 25 Sep 2025 00:09:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 14:16:55.681449
- Title: The Asymptotic Behavior of Attention in Transformers
- Title(参考訳): 変圧器における注意の漸近行動
- Authors: Álvaro Rodríguez Abella, João Pedro Silvestre, Paulo Tabuada,
- Abstract要約: トランスフォーマーアーキテクチャは、現代の大規模言語モデル(LLM)の基礎となった。
深さが増加するにつれて,すべてのトークンがクラスタに変換的に収束することを示す。
次に、解析を自己回帰モデルに拡張し、その構造を利用して理論的保証をさらに一般化する。
- 参考スコア(独自算出の注目度): 2.631744051718347
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The transformer architecture has become the foundation of modern Large Language Models (LLMs), yet its theoretical properties are still not well understood. As with classic neural networks, a common approach to improve these models is to increase their size and depth. However, such strategies may be suboptimal, as several works have shown that adding more layers yields increasingly diminishing returns. More importantly, prior studies have shown that increasing depth may lead to model collapse, i.e., all the tokens converge to a single cluster, undermining the ability of LLMs to generate diverse outputs. Building on differential equation models for the transformer dynamics, we prove that all the tokens in a transformer asymptotically converge to a cluster as depth increases. At the technical level we leverage tools from control theory, including consensus dynamics on manifolds and input-to-state stability (ISS). We then extend our analysis to autoregressive models, exploiting their structure to further generalize the theoretical guarantees.
- Abstract(参考訳): トランスフォーマーアーキテクチャは現代のLarge Language Models(LLM)の基盤となっているが、その理論的性質はまだよく分かっていない。
古典的なニューラルネットワークと同様に、これらのモデルを改善するための一般的なアプローチは、サイズと深さを増やすことである。
しかし、そのような戦略は準最適であり、いくつかの研究は、より多くのレイヤーを追加すると、リターンが減少することを示している。
さらに重要なことは、先行研究により、深度が増大すると全てのトークンが単一のクラスタに収束し、多様な出力を生成するLLMの能力が損なわれる可能性があることが示されている。
変圧器力学の微分方程式モデルに基づいて、変圧器内の全てのトークンが、深さが増加するにつれて漸近的にクラスタに収束することが証明される。
技術的なレベルでは、多様体のコンセンサスダイナミクスやインプット・トゥ・ステート・安定性(ISS)など、制御理論からツールを活用する。
次に、解析を自己回帰モデルに拡張し、その構造を利用して理論的保証をさらに一般化する。
関連論文リスト
- Transformers as Multi-task Learners: Decoupling Features in Hidden Markov Models [12.112842686827669]
トランスフォーマーベースのモデルは、幅広いタスクにわたってシーケンス学習において顕著な能力を示している。
マルチタスク一般化能力の基盤となるメカニズムを明らかにするために,トランスフォーマーの階層的挙動について検討する。
我々の明示的な構成は経験的観察と密接に一致し、様々なタスクにわたるシーケンス学習におけるトランスフォーマーの有効性と効率の理論的支援を提供する。
論文 参考訳(メタデータ) (2025-06-02T17:39:31Z) - A Unified Perspective on the Dynamics of Deep Transformers [24.094975798576783]
深部変圧器によるデータ異方性の進化について検討する。
我々は、非正規化離散ケースにおいて、以前の結果と平行なクラスタリング現象を強調した。
論文 参考訳(メタデータ) (2025-01-30T13:04:54Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - A Theoretical Understanding of Chain-of-Thought: Coherent Reasoning and Error-Aware Demonstration [41.88275731297211]
ステップワイズICLと比較して、前段からの推論が統合された場合、トランスフォーマーはより優れた誤り訂正能力とより正確な予測が得られることを示す。
実演において,正しい推論経路と誤った推論経路の両方を組み込むことにより,CoTの改善を提案する。
論文 参考訳(メタデータ) (2024-10-21T22:07:20Z) - Clustering in pure-attention hardmax transformers and its role in sentiment analysis [0.0]
ハードマックス自己アテンションと正規化サブ層を有する変圧器の挙動を, 層数が無限大になる傾向があるため, 厳密に特徴づける。
変換器は、リーダーと呼ばれる特別な点によって決定されるクラスター平衡にインプット的に収束することを示す。
そして、この理論的理解を利用して、完全に解釈可能なトランスフォーマーモデルを用いて、言語処理から感情分析問題を解く。
論文 参考訳(メタデータ) (2024-06-26T16:13:35Z) - Understanding the Expressive Power and Mechanisms of Transformer for Sequence Modeling [10.246977481606427]
ドット積自己注意などのトランスフォーマーの異なる成分が表現力に影響を及ぼすメカニズムについて検討する。
本研究では,トランスフォーマーにおける臨界パラメータの役割を明らかにする。
論文 参考訳(メタデータ) (2024-02-01T11:43:13Z) - Transformers are Universal Predictors [21.92580010179886]
言語モデリングにおけるTransformerアーキテクチャの限界を見つけ,情報理論的な意味での普遍的な予測特性を示す。
我々は,トランスフォーマーアーキテクチャの様々なコンポーネントの役割を,特にデータ効率のトレーニングの文脈で理解するために,非漸近データシステムの性能を分析した。
論文 参考訳(メタデータ) (2023-07-15T16:19:37Z) - Approximation and Estimation Ability of Transformers for
Sequence-to-Sequence Functions with Infinite Dimensional Input [50.83356836818667]
無限次元入力を持つシーケンス・ツー・シーケンス関数として変換器の近似と推定能力について検討する。
我々の理論的結果は、高次元データに対する変換器の実用的成功を支持する。
論文 参考訳(メタデータ) (2023-05-30T02:44:49Z) - A Theoretical Understanding of Shallow Vision Transformers: Learning,
Generalization, and Sample Complexity [71.11795737362459]
自己注意モジュールを持つViTは、最近多くのタスクで経験的な成功を収めた。
しかし、理論学習の一般化分析は、ほとんどノイズが多く、解答的である。
本稿では,分類タスクのための浅いViTの理論的解析を行った。
論文 参考訳(メタデータ) (2023-02-12T22:12:35Z) - Outliers Dimensions that Disrupt Transformers Are Driven by Frequency [79.22656609637525]
トークン周波数が異常現象に寄与することを示す。
また, モデル性能に対する外れ値の影響は層によって異なり, また, 乱れの大きさと符号化されたトークン周波数との相関関係も明らかとなった。
論文 参考訳(メタデータ) (2022-05-23T15:19:09Z) - A Probabilistic Interpretation of Transformers [91.3755431537592]
本稿では,変圧器の指数点積注意の確率論的解釈と指数列に基づくコントラスト学習を提案する。
我々は、我々の理論とホップフィールド理論の理論的限界を述べ、分解の方向性を提案する。
論文 参考訳(メタデータ) (2022-04-28T23:05:02Z) - On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。
硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文 参考訳(メタデータ) (2021-06-30T17:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。