論文の概要: Fast Multipole Attention: A Scalable Multilevel Attention Mechanism for Text and Images
- arxiv url: http://arxiv.org/abs/2310.11960v4
- Date: Thu, 18 Sep 2025 07:14:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.802323
- Title: Fast Multipole Attention: A Scalable Multilevel Attention Mechanism for Text and Images
- Title(参考訳): 高速マルチポールアテンション:テキストと画像のためのスケーラブルなマルチレベルアテンションメカニズム
- Authors: Yanming Kang, Giang Tran, Hans De Sterck,
- Abstract要約: 我々は,n体物理学にインスパイアされた自己注意のための分割・コンカヤ機構である高速多極注意(FMA)を導入する。
FMAは、完全なコンテキストインタラクションを保持しながら、自己アテンションの時間とメモリの複雑さを$mathcalOleft(n2right)$から$mathcalO(n log n)$に削減する。
言語タスクと視覚タスクのためのFMAの1次元実装と2次元実装をそれぞれ開発した。
- 参考スコア(独自算出の注目度): 0.818198392834469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Transformer networks benefit from a global receptive field, their quadratic cost relative to sequence length restricts their application to long sequences and high-resolution inputs. We introduce Fast Multipole Attention (FMA), a divide-and-conquer mechanism for self-attention inspired by the Fast Multipole Method from n-body physics. FMA reduces the time and memory complexity of self-attention from $\mathcal{O}\left(n^2\right)$ to $\mathcal{O}(n \log n)$ and $\mathcal{O}(n)$ while preserving full-context interactions. FMA contains a learned hierarchy with $\mathcal{O}(\log n)$ levels of resolution. In this hierarchy, nearby tokens interact at full resolution, while distant tokens engage through progressively coarser, learned basis functions. We have developed both 1D and 2D implementations of FMA for language and vision tasks, respectively. On autoregressive and bidirectional language modeling benchmarks, the 1D variant either matches or outperforms leading efficient attention baselines with substantially lower memory use. With linear complexity, the 2D variant demonstrates superior performance over strong vision transformer baselines in classification and semantic segmentation tasks. Our results confirm that the multilevel attention implemented by FMA allows Transformer-based models to scale to much longer sequences and higher-resolution inputs without loss in accuracy. This provides a principled, physics-inspired approach for developing scalable neural networks suitable for language, vision, and multimodal tasks. Our code will be available at https://github.com/epoch98/FMA.
- Abstract(参考訳): トランスフォーマーネットワークは、グローバルな受容場から恩恵を受けるが、シーケンス長に対する2次コストは、長いシーケンスや高解像度の入力に制限される。
我々は,n体物理学の高速多極法にインスパイアされた自己注意のための分割コンカヤ機構であるFMAを導入する。
FMAは、完全なコンテキスト相互作用を維持しながら、自己アテンションの時間とメモリの複雑さを$\mathcal{O}\left(n^2\right)$から$\mathcal{O}(n \log n)$と$\mathcal{O}(n)$に削減する。
FMAには、$\mathcal{O}(\log n)$レベルの解像度を持つ学習階層が含まれている。
この階層では、近くのトークンは完全な解像度で相互作用し、遠くのトークンは漸進的に粗い基礎関数を通して作用する。
言語タスクと視覚タスクのためのFMAの1次元実装と2次元実装をそれぞれ開発した。
自動回帰および双方向言語モデリングベンチマークでは、1D変種はメモリ使用量を大幅に削減した効率的な注意ベースラインを導出する。
線形複雑性では、2D変種は、分類とセマンティックセグメンテーションタスクにおいて、強い視覚変換器ベースラインよりも優れた性能を示す。
FMAにより実装されたマルチレベルアテンションにより、トランスフォーマーベースのモデルは、精度を損なうことなく、はるかに長いシーケンスと高解像度の入力にスケールできることを確認した。
これは、言語、ビジョン、マルチモーダルタスクに適したスケーラブルなニューラルネットワークを開発するための、原則化された物理に着想を得たアプローチを提供する。
私たちのコードはhttps://github.com/epoch98/FMAで公開されます。
関連論文リスト
- Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time [17.086679273053853]
本研究では,新しい高速近似法により,ほぼ線形時間で勾配を計算することができることを示す。
勾配の効率を改善することで、この作業がより効果的なトレーニングと長期コンテキスト言語モデルのデプロイを促進することを期待する。
論文 参考訳(メタデータ) (2024-08-23T17:16:43Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z) - HyperZ$\cdot$Z$\cdot$W Operator Connects Slow-Fast Networks for Full
Context Interaction [0.0]
自己注意機構は、ドット製品ベースのアクティベーションを通じてプログラムされた大きな暗黙の重み行列を利用して、訓練可能なパラメータがほとんどないため、長いシーケンスモデリングを可能にする。
本稿では,ネットワークの各層におけるコンテキストの完全な相互作用を実現するために,大きな暗黙のカーネルを用いて残差学習を破棄する可能性について検討する。
このモデルにはいくつかの革新的なコンポーネントが組み込まれており、遅いネットワークを更新するための局所的なフィードバックエラー、安定なゼロ平均機能、より高速なトレーニング収束、より少ないモデルパラメータなど、優れた特性を示している。
論文 参考訳(メタデータ) (2024-01-31T15:57:21Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z) - Transformers Learn Shortcuts to Automata [52.015990420075944]
低深度変換器は任意の有限状態オートマトンを計算できる。
我々は,$O(log T)$レイヤを持つ変換器が,長さ$T$の入力シーケンス上で,オートマトンを正確に再現可能であることを示す。
さらに、これらの解の脆性について検討し、潜在的な緩和を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:45:48Z) - Fastformer: Additive Attention Can Be All You Need [51.79399904527525]
本稿では,加法的注意に基づく効率的なトランスフォーマーモデルであるFastformerを提案する。
Fastformerでは、トークン間のペアワイズインタラクションをモデル化する代わりに、まずグローバルコンテキストをモデル化するために追加アテンションメカニズムを使用します。
このように、Fastformerは線形複雑性を伴う効果的なコンテキストモデリングを実現することができる。
論文 参考訳(メタデータ) (2021-08-20T09:44:44Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。