論文の概要: Fast attention mechanisms: a tale of parallelism
- arxiv url: http://arxiv.org/abs/2509.09001v1
- Date: Wed, 10 Sep 2025 20:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.149332
- Title: Fast attention mechanisms: a tale of parallelism
- Title(参考訳): ファスト・アテンション・メカニズム--パラレルな物語
- Authors: Jingwen Liu, Hantao Yu, Clayton Sanford, Alexandr Andoni, Daniel Hsu,
- Abstract要約: 準四分法的時間複雑性を有する近似近傍注意(ANNA)という,効率的な注意機構を導入する。
我々は,ANNA変換器が従来確立されていた表現力を維持し,MPCアルゴリズムの能力に適合することを示す。
- 参考スコア(独自算出の注目度): 52.7657529272906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have the representational capacity to simulate Massively Parallel Computation (MPC) algorithms, but they suffer from quadratic time complexity, which severely limits their scalability. We introduce an efficient attention mechanism called Approximate Nearest Neighbor Attention (ANNA) with sub-quadratic time complexity. We prove that ANNA-transformers (1) retain the expressive power previously established for standard attention in terms of matching the capabilities of MPC algorithms, and (2) can solve key reasoning tasks such as Match2 and $k$-hop with near-optimal depth. Using the MPC framework, we further prove that constant-depth ANNA-transformers can simulate constant-depth low-rank transformers, thereby providing a unified way to reason about a broad class of efficient attention approximations.
- Abstract(参考訳): 変換器はMPC(Massively Parallel Computation)アルゴリズムをシミュレートする表現能力を持つが、2次時間複雑性に悩まされ、スケーラビリティが著しく制限される。
準四分法的時間複雑性を有する近似近傍注意(ANNA)という,効率的な注意機構を導入する。
我々は,(1)MPCアルゴリズムの能力の整合性の観点から,従来確立されていた表現力を維持し,(2)Match2 や $k$-hop といった重要な推論タスクを最適に近い深さで解くことができることを証明した。
MPC フレームワークを用いて,定数深度ANNA変換器が一定深度低ランク変圧器をシミュレートできることを示す。
関連論文リスト
- Pimba: A Processing-in-Memory Acceleration for Post-Transformer Large Language Model Serving [1.9508863993381267]
トランスフォーマーは、今日のLarge Language Models(LLM)の原動力であり、そのパフォーマンスと汎用性の基盤となっている。
これに対し、アルゴリズムコミュニティはステートスペースモデル(SSM)、線形アテンション、リカレントニューラルネットワーク(RNN)などの代替アーキテクチャを模索している。
論文 参考訳(メタデータ) (2025-07-14T11:40:17Z) - Pushing the Boundary of Quantum Advantage in Hard Combinatorial Optimization with Probabilistic Computers [0.4969640751053581]
確率的コンピュータ(p-コンピュータ)が、ハード最適化問題を解決するための説得力がありスケーラブルな古典的経路を提供することを示す。
我々は3次元スピングラスに適用された2つの重要なアルゴリズム、離散時間シミュレーション量子アニール(DT-SQA)と適応並列テンパリング(APT)に焦点を当てた。
APTは非局所アイソエネルゲティッククラスタの移動によって支えられ、より良好なスケーリングを示し、最終的にはDT-SQAよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-03-13T12:24:13Z) - Investigating Recurrent Transformers with Dynamic Halt [64.862738244735]
本研究では, 変圧器の繰り返し機構を付加する2つの主要な手法の帰納バイアスについて検討する。
提案手法を拡張・結合する新しい手法を提案し,検討する。
論文 参考訳(メタデータ) (2024-02-01T19:47:31Z) - Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。
提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文 参考訳(メタデータ) (2023-10-03T08:44:50Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。