論文の概要: Poly-attention: a general scheme for higher-order self-attention
- arxiv url: http://arxiv.org/abs/2602.02422v1
- Date: Mon, 02 Feb 2026 18:24:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.354798
- Title: Poly-attention: a general scheme for higher-order self-attention
- Title(参考訳): ポリアテンション:高次自己アテンションのための一般的なスキーム
- Authors: Sayak Chakrabarti, Toniann Pitassi, Josh Alman,
- Abstract要約: 我々は、多意性(poly-attention)機構(poly-attention mechanism)と呼ばれる、多種多様な自己注意の一般化を定義する。
我々の機構は、任意の高次(テンソル)計算と入力トークン間の任意の関係構造を組み込むことができる。
注意行列の計算の時間的複雑さについて,新しいアルゴリズムと複雑性理論的下界のマッチングを与える。
- 参考スコア(独自算出の注目度): 16.719964872886315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The self-attention mechanism, at the heart of the Transformer model, is able to effectively model pairwise interactions between tokens. However, numerous recent works have shown that it is unable to perform basic tasks involving detecting triples of correlated tokens, or compositional tasks where multiple input tokens need to be referenced to generate a result. Some higher-dimensional alternatives to self-attention have been proposed to address this, including higher-order attention and Strassen attention, which can perform some of these polyadic tasks in exchange for slower, superquadratic running times. In this work, we define a vast class of generalizations of self-attention, which we call poly-attention mechanisms. Our mechanisms can incorporate arbitrary higher-order (tensor) computations as well as arbitrary relationship structures between the input tokens, and they include the aforementioned alternatives as special cases. We then systematically study their computational complexity and representational strength, including giving new algorithms and matching complexity-theoretic lower bounds on the time complexity of computing the attention matrix exactly as well as approximately, and tightly determining which polyadic tasks they can each perform. Our results give interesting trade-offs between different desiderata for these mechanisms, including a tight relationship between how expressive a mechanism is, and how large the coefficients in the model may be so that the mechanism can be approximated in almost-linear time. Notably, we give a new attention mechanism which can be computed exactly in quadratic time, and which can perform function composition for any fixed number of functions. Prior mechanisms, even for just composing two functions, could only be computed in superquadratic time, and our new lower bounds show that faster algorithms for them are not possible.
- Abstract(参考訳): Transformerモデルの中心にある自己保持機構は、トークン間のペアワイズ相互作用を効果的にモデル化することができる。
しかし、近年の多くの研究により、相関トークンの三重項の検出や、結果を生成するために複数の入力トークンを参照する必要がある構成タスクを含む基本的なタスクは実行できないことが示されている。
これに対処するためには、高次の注意やストラッセンの注意などの高次元的な代替案が提案されている。
本研究では,多意性(poly-attention)機構と呼ばれる,自己意図性(self-attention)の広範なクラスを定義する。
我々の機構は、任意の高次(テンソル)計算と入力トークン間の任意の関係構造を組み込むことができ、上記の選択肢を特別なケースとして含めることができる。
次に,その計算複雑性と表現強度を体系的に研究し,新しいアルゴリズムと,注意行列の計算の時間的複雑さと,それに対応する複雑性理論の下界のマッチングを行い,それぞれが実行可能な多進的タスクを厳密に決定する。
以上の結果から,これらのメカニズムに対する異なるデシラタのトレードオフが得られ,例えば,メカニズムの表現性や,モデル内の係数がほぼ直線的に近似できる程度に大きくなることの密接な関係が示唆された。
特に、2次時間で正確に計算でき、任意の一定数の関数に対して関数合成を行うことのできる新しい注意機構を与える。
従来のメカニズムは、2つの関数を構成するだけでは超四次時間でしか計算できず、新しい下界ではより高速なアルゴリズムは不可能であることが示されています。
関連論文リスト
- How Particle-System Random Batch Methods Enhance Graph Transformer: Memory Efficiency and Parallel Computing Strategy [39.666337901651865]
我々は,Random Batch Attention(RBA)を,その表現性を維持する能力の理論的支持を有する線形自己注意機構として提案した。
RBAには以下のいくつかの重要な強みがある。
新しい次元で並列に実装できるため、メモリの節約に寄与する。
論文 参考訳(メタデータ) (2025-11-08T15:34:15Z) - Fast attention mechanisms: a tale of parallelism [52.7657529272906]
準四分法的時間複雑性を有する近似近傍注意(ANNA)という,効率的な注意機構を導入する。
我々は,ANNA変換器が従来確立されていた表現力を維持し,MPCアルゴリズムの能力に適合することを示す。
論文 参考訳(メタデータ) (2025-09-10T20:59:44Z) - Sequential-Parallel Duality in Prefix Scannable Models [68.39855814099997]
近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。
ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
論文 参考訳(メタデータ) (2025-06-12T17:32:02Z) - QAMA: Scalable Quantum Annealing Multi-Head Attention Operator for Deep Learning [48.12231190677108]
QAMA(Quantum Annealing Multi-Head Attention)は、エネルギーベースのハミルトン最適化問題として注目を集める新しいドロップイン演算子である。
この枠組みでは、トークン相互作用を二項二項項に符号化し、低エネルギー構成の探索に量子アニールを用いる。
経験的に、自然言語と視覚のベンチマークによる評価は、タスク全体にわたって、標準的なマルチヘッドの注意から少なくとも2.7ポイントの精度が低下していることを示している。
論文 参考訳(メタデータ) (2025-04-15T11:29:09Z) - Fundamental Limitations on Subquadratic Alternatives to Transformers [3.514389461266844]
文書類似性タスクに重点を置いており、入力された多くの文書として与えられ、最もよく似たペアを見つけたいと思っています。
我々はTransformerがこのタスクを実行できることを証明し、このタスクはどんなアルゴリズムでも真に四分数時間で実行できないことを証明した。
論文 参考訳(メタデータ) (2024-10-05T19:21:13Z) - Are queries and keys always relevant? A case study on Transformer wave functions [0.0]
ドット製品アテンションメカニズム(ドット製品アテンションメカニズム)は、元々自然言語処理タスク用に設計されたもので、現代のトランスフォーマーの基盤となっている。
本稿では,変分波動関数のパラメトリゼーションの特定の領域において,トランスフォーマーの適応性について検討する。
論文 参考訳(メタデータ) (2024-05-29T08:32:37Z) - Linear Self-Attention Approximation via Trainable Feedforward Kernel [77.34726150561087]
高速な計算を追求する中で、効率的なトランスフォーマーは印象的な様々なアプローチを実証している。
我々は,トランスフォーマーアーキテクチャの自己保持機構を近似するために,トレーニング可能なカーネルメソッドのアイデアを拡張することを目指している。
論文 参考訳(メタデータ) (2022-11-08T08:14:11Z) - On The Computational Complexity of Self-Attention [22.3395465641384]
現代の変圧器は、時間と空間の複雑さが入力の長さの2乗である自己認識機構に依存している。
我々は、強い指数時間仮説(SETH)が偽でない限り、自己注意の時間複雑性は入力長において必然的に二次的であることを証明した。
下界を補うものとして、有限テイラー級数を用いて線型時間でドット積自己アテンションを近似することは実際に可能であることを示す。
論文 参考訳(メタデータ) (2022-09-11T14:38:10Z) - Learning Sequence Representations by Non-local Recurrent Neural Memory [61.65105481899744]
教師付きシーケンス表現学習のためのNon-local Recurrent Neural Memory (NRNM)を提案する。
我々のモデルは長距離依存を捉えることができ、潜伏した高レベル特徴を我々のモデルで抽出することができる。
我々のモデルは、これらのシーケンスアプリケーションごとに特別に設計された他の最先端の手法と比較して好意的に比較する。
論文 参考訳(メタデータ) (2022-07-20T07:26:15Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。