Fugu-MT 論文翻訳(概要): The Asymptotic Behavior of Attention in Transformers

論文の概要: The Asymptotic Behavior of Attention in Transformers

arxiv url: http://arxiv.org/abs/2412.02682v1
Date: Tue, 03 Dec 2024 18:54:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:23.114477
Title: The Asymptotic Behavior of Attention in Transformers
Title（参考訳）: 変圧器における注意の漸近行動
Authors: Álvaro Rodríguez Abella, João Pedro Silvestre, Paulo Tabuada,
Abstract要約: 変換器の注意特性を厳密に数学的に解析する。異なる仮定に基づくいくつかの結果を示すが、いずれも同じ結論を示している。
参考スコア（独自算出の注目度）: 5.079602839359521
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: A key component of transformers is the attention mechanism orchestrating how each token influences the propagation of every other token through a transformer. In this paper we provide a rigorous, mathematical analysis of the asymptotic properties of attention in transformers. Although we present several results based on different assumptions, all of them point to the same conclusion, all tokens asymptotically converge to each other, a phenomenon that has been empirically reported in the literature. Our findings are carefully compared with existing theoretical results and illustrated by simulations and experimental studies using the GPT-2 model.
Abstract（参考訳）: トランスの重要なコンポーネントは、各トークンがトランスフォーマーを介して他のトークンの伝播にどのように影響するかをオーケストレーションするアテンションメカニズムである。本稿では,変圧器における注意の漸近特性を厳密に数学的に解析する。異なる仮定に基づいていくつかの結果を示すが、いずれも同じ結論を示しているが、すべてのトークンは漸近的に互いに収束しており、この現象は文献で実証的に報告されている。本研究は, GPT-2モデルを用いたシミュレーションおよび実験により, 既存の理論的結果と慎重に比較した。

関連論文リスト

Transformers as Multi-task Learners: Decoupling Features in Hidden Markov Models [12.112842686827669]
トランスフォーマーベースのモデルは、幅広いタスクにわたってシーケンス学習において顕著な能力を示している。マルチタスク一般化能力の基盤となるメカニズムを明らかにするために,トランスフォーマーの階層的挙動について検討する。我々の明示的な構成は経験的観察と密接に一致し、様々なタスクにわたるシーケンス学習におけるトランスフォーマーの有効性と効率の理論的支援を提供する。
論文参考訳（メタデータ） (2025-06-02T17:39:31Z)
A Unified Perspective on the Dynamics of Deep Transformers [24.094975798576783]
深部変圧器によるデータ異方性の進化について検討する。我々は、非正規化離散ケースにおいて、以前の結果と平行なクラスタリング現象を強調した。
論文参考訳（メタデータ） (2025-01-30T13:04:54Z)
Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文参考訳（メタデータ） (2024-10-22T21:30:01Z)
A Theoretical Understanding of Chain-of-Thought: Coherent Reasoning and Error-Aware Demonstration [41.88275731297211]
ステップワイズICLと比較して、前段からの推論が統合された場合、トランスフォーマーはより優れた誤り訂正能力とより正確な予測が得られることを示す。実演において,正しい推論経路と誤った推論経路の両方を組み込むことにより,CoTの改善を提案する。
論文参考訳（メタデータ） (2024-10-21T22:07:20Z)
Clustering in pure-attention hardmax transformers and its role in sentiment analysis [0.0]
ハードマックス自己アテンションと正規化サブ層を有する変圧器の挙動を, 層数が無限大になる傾向があるため, 厳密に特徴づける。変換器は、リーダーと呼ばれる特別な点によって決定されるクラスター平衡にインプット的に収束することを示す。そして、この理論的理解を利用して、完全に解釈可能なトランスフォーマーモデルを用いて、言語処理から感情分析問題を解く。
論文参考訳（メタデータ） (2024-06-26T16:13:35Z)
Understanding the Expressive Power and Mechanisms of Transformer for Sequence Modeling [10.246977481606427]
ドット積自己注意などのトランスフォーマーの異なる成分が表現力に影響を及ぼすメカニズムについて検討する。本研究では,トランスフォーマーにおける臨界パラメータの役割を明らかにする。
論文参考訳（メタデータ） (2024-02-01T11:43:13Z)
Transformers are Universal Predictors [21.92580010179886]
言語モデリングにおけるTransformerアーキテクチャの限界を見つけ,情報理論的な意味での普遍的な予測特性を示す。我々は,トランスフォーマーアーキテクチャの様々なコンポーネントの役割を,特にデータ効率のトレーニングの文脈で理解するために,非漸近データシステムの性能を分析した。
論文参考訳（メタデータ） (2023-07-15T16:19:37Z)
Approximation and Estimation Ability of Transformers for Sequence-to-Sequence Functions with Infinite Dimensional Input [50.83356836818667]
無限次元入力を持つシーケンス・ツー・シーケンス関数として変換器の近似と推定能力について検討する。我々の理論的結果は、高次元データに対する変換器の実用的成功を支持する。
論文参考訳（メタデータ） (2023-05-30T02:44:49Z)
A Theoretical Understanding of Shallow Vision Transformers: Learning, Generalization, and Sample Complexity [71.11795737362459]
自己注意モジュールを持つViTは、最近多くのタスクで経験的な成功を収めた。しかし、理論学習の一般化分析は、ほとんどノイズが多く、解答的である。本稿では,分類タスクのための浅いViTの理論的解析を行った。
論文参考訳（メタデータ） (2023-02-12T22:12:35Z)
Outliers Dimensions that Disrupt Transformers Are Driven by Frequency [79.22656609637525]
トークン周波数が異常現象に寄与することを示す。また, モデル性能に対する外れ値の影響は層によって異なり, また, 乱れの大きさと符号化されたトークン周波数との相関関係も明らかとなった。
論文参考訳（メタデータ） (2022-05-23T15:19:09Z)
A Probabilistic Interpretation of Transformers [91.3755431537592]
本稿では,変圧器の指数点積注意の確率論的解釈と指数列に基づくコントラスト学習を提案する。我々は、我々の理論とホップフィールド理論の理論的限界を述べ、分解の方向性を提案する。
論文参考訳（メタデータ） (2022-04-28T23:05:02Z)
On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文参考訳（メタデータ） (2021-06-30T17:09:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。