論文の概要: Strassen Attention: Unlocking Compositional Abilities in Transformers Based on a New Lower Bound Method
- arxiv url: http://arxiv.org/abs/2501.19215v2
- Date: Thu, 06 Feb 2025 12:45:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:33:52.625561
- Title: Strassen Attention: Unlocking Compositional Abilities in Transformers Based on a New Lower Bound Method
- Title(参考訳): ストラッセン注意:新しい下界法に基づく変圧器の構成能力の解錠
- Authors: Alexander Kozachinskiy, Felipe Urrutia, Hector Jimenez, Tomasz Steifer, Germán Pizarro, Matías Fuentes, Francisco Meza, Cristian B. Calderon, Cristóbal Rojas,
- Abstract要約: 一層ソフトマックス変換器に対する第1の下位境界を無限精度で証明する。
そこで我々は,Strassenの注意を喚起し,この機構により1層トランスフォーマーがこれらの課題をすべて解決できることを示す。
我々の結果は、これらの注意機構をすべて切り離し、その強みと限界を強調するのに役立ちます。
- 参考スコア(独自算出の注目度): 34.8008617873679
- License:
- Abstract: We propose a novel method to evaluate the theoretical limits of Transformers, allowing us to prove the first lower bounds against one-layer softmax Transformers with infinite precision. We establish those bounds for three tasks that require advanced reasoning. The first task, Match3 (Sanford et al., 2023), requires looking at all triples of positions. The second and third tasks address compositionality-based reasoning: one is composition of functions (Peng et al., 2024) and the other is composition of binary relations. We formally prove the inability of one-layer softmax Transformers to solve any of these tasks. In an attempt to overcome these limitations, we introduce Strassen attention and prove that with this mechanism a one-layer Transformer can in principle solve all these tasks. We also show that it enjoys sub-cubic running-time complexity, making it more scalable than similar previously proposed mechanisms, such as higher-order attention (Sanford et al., 2023). To complement our theoretical findings, we experimentally studied Strassen attention and compared it against standard (Vaswani et al, 2017), higher-order attention (Sanford et al., 2023) and triangular attention (Bergen et al. 2021). Our results help to disentangle all these attention mechanisms, highlighting their strengths and limitations. In particular, Strassen attention outperforms standard attention significantly on all the tasks. Altogether, understanding the theoretical limitations can guide research towards scalable attention mechanisms that improve the reasoning abilities of Transformers.
- Abstract(参考訳): 本研究では,変圧器の理論的限界を評価する新しい手法を提案し,一層ソフトマックス変圧器に対する第1の下位境界を無限精度で証明する。
高度な推論を必要とする3つのタスクに対する境界を確立する。
最初のタスクであるMatch3 (Sanford et al , 2023) は、全ての3つの位置を調べる必要がある。
第2および第3のタスクは構成性に基づく推論に対処する: 1つは関数の合成(Peng et al , 2024)、もう1つは二項関係の合成である。
我々は,これらの課題を解くための一層ソフトマックス変換器が存在しないことを正式に証明する。
これらの制限を克服するために、Strassen の注意点を導入し、このメカニズムにより、1層トランスフォーマーが原理的にこれらの課題を解くことができることを示す。
また、サブキュービックなランニングタイムの複雑さを享受し、より高次注意(Sanford et al , 2023)のような、従来提案されていたメカニズムよりもスケーラブルであることを示す。
理論的な知見を補完するため,Strassenの注意を実験的に研究し,標準(Vaswani et al, 2017),高次注意(Sanford et al , 2023),三角注意(Bergen et al 2021)と比較した。
我々の結果は、これらの注意機構をすべて切り離し、その強みと限界を強調するのに役立ちます。
特に、ストラッセンの注意は、すべてのタスクにおいて、標準的注意を著しく上回る。
理論的な限界を理解することは、トランスフォーマーの推論能力を改善するスケーラブルな注意機構への研究を導くことができる。
関連論文リスト
- Lower Bounds for Chain-of-Thought Reasoning in Hard-Attention Transformers [5.4649464326326]
整合推論とスクラッチパッドは、変換器の計算能力を高める重要なツールとして登場した。
本研究では,異なるアルゴリズム問題にまたがるCoTステップ数に対する体系的下界の研究を開始する。
論文 参考訳(メタデータ) (2025-02-04T15:14:01Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Clustering in pure-attention hardmax transformers and its role in sentiment analysis [0.0]
ハードマックス自己アテンションと正規化サブ層を有する変圧器の挙動を, 層数が無限大になる傾向があるため, 厳密に特徴づける。
変換器は、リーダーと呼ばれる特別な点によって決定されるクラスター平衡にインプット的に収束することを示す。
そして、この理論的理解を利用して、完全に解釈可能なトランスフォーマーモデルを用いて、言語処理から感情分析問題を解く。
論文 参考訳(メタデータ) (2024-06-26T16:13:35Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - From Interpolation to Extrapolation: Complete Length Generalization for Arithmetic Transformers [7.011373967209572]
対象の注意バイアスの助けを借りて,変圧器モデルを長大化することができることを示す。
ABC を用いて,変圧器モデルにより,ある種の算術課題において,前例のないほぼ完全長の一般化を達成できることを実証する。
論文 参考訳(メタデータ) (2023-10-18T14:10:47Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Generic Attention-model Explainability for Interpreting Bi-Modal and
Encoder-Decoder Transformers [78.26411729589526]
トランスフォーマーアーキテクチャによる予測を説明する最初の方法を提案する。
本手法は,一様説明性に適応した既存手法よりも優れている。
論文 参考訳(メタデータ) (2021-03-29T15:03:11Z) - Attention is Not All You Need: Pure Attention Loses Rank Doubly
Exponentially with Depth [48.16156149749371]
この研究は、自己注意ネットワークを理解するための新しい方法を提案する。
それらの出力は、より小さな項の和に分解できることを示す。
我々は、自己意識が「トークン」に対して強い帰納的偏見を持っていることを証明している。
論文 参考訳(メタデータ) (2021-03-05T00:39:05Z) - Normalized Attention Without Probability Cage [12.18340575383456]
確率単純度に注意重みを拘束する限界を示す。
自己注意におけるソフトマックスを正規化に置き換えることを提案する。
25,000以上のトレーニングモデルから得られた経験的な結果によって、私たちの洞察を支持します。
論文 参考訳(メタデータ) (2020-05-19T16:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。