論文の概要: Multipole Semantic Attention: A Fast Approximation of Softmax Attention for Pretraining
- arxiv url: http://arxiv.org/abs/2509.10406v2
- Date: Mon, 15 Sep 2025 15:24:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 13:19:48.002692
- Title: Multipole Semantic Attention: A Fast Approximation of Softmax Attention for Pretraining
- Title(参考訳): マルチポールセマンティックアテンション:事前トレーニングのためのソフトマックスアテンションの高速近似
- Authors: Rupert Mitchell, Kristian Kersting,
- Abstract要約: ソフトマックスアテンションの効率的な近似であるmultipole Semantic Attention (MuSe)を提案する。
本手法は,クエリとキーを個別にクラスタリングすることで,コンテクスト長の変換器の2次計算複雑性に対処する。
因果的注意を喚起するために、正確な局所計算と効率的な長距離近似を組み合わせた階層的ブロック分解を開発する。
- 参考スコア(独自算出の注目度): 36.70261826975876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Multipole Semantic Attention (MuSe), an efficient approximation of softmax attention that combines semantic clustering with multipole expansions from computational physics. Our method addresses the quadratic computational complexity of transformers in the context length by clustering queries and keys separately in their learned representation spaces, enabling a hierarchical two-stage attention mechanism. Unlike prior clustering approaches that group only keys or use unified clustering, we maintain separate clusterings that respect attention's asymmetric treatment of these spaces. We augment centroid-based (monopole) approximations with dipole corrections that capture directional variance within clusters, preserving richer information during training. The method operates as a drop-in replacement for standard attention, requiring only hyperparameter specification without architectural modifications. Our approach achieves $\mathcal{O}(NCD)$ complexity for acausal attention with $C$ clusters and $\mathcal{O}(NCD \log N)$ for causal attention. On isolated attention layers, we demonstrate $3\times$ speedup over CUDNN Flash Attention at 8k context length, with relative squared errors below 20%. For causal attention, we develop a hierarchical block decomposition that combines exact local computation with efficient long-range approximation. In end-to-end pretraining of a 30M parameter model on book-length texts with 16k context, we achieve 12.2% runtime reduction with only 0.36% loss degradation, establishing the viability of multipole approximations for efficient transformer pretraining.
- Abstract(参考訳): 本稿では,セマンティッククラスタリングと計算物理学からのマルチポール展開を組み合わせた,ソフトマックスアテンションの効率的な近似であるMultipole Semantic Attention(MuSe)を提案する。
本手法は,学習した表現空間にクエリとキーを個別にクラスタリングすることで,文脈長の変換器の2次計算複雑性に対処し,階層的な2段階の注意機構を実現する。
キーのみをグループ化する以前のクラスタリングアプローチと異なり、これらの空間の非対称な処理を尊重する別個のクラスタリングを維持している。
集中型(モノポール)近似を双極子補正で拡張し、クラスタ内の方向のばらつきを捉え、トレーニング中によりリッチな情報を保存する。
この手法は標準的な注意の代替として機能し、アーキテクチャの変更なしにハイパーパラメータ仕様のみを必要とする。
我々の手法は、因果的注意のために、$C$クラスタと$\mathcal{O}(NCD \log N)$で、因果的注意のために$\mathcal{O}(NCD)$複雑性を実現する。
分離された注意層上では、CUDNN Flash Attentionを8kのコンテキスト長で3ドル以上のスピードアップし、相対的な2乗誤差を20%以下で示します。
因果的注意を喚起するために、正確な局所計算と効率的な長距離近似を組み合わせた階層的ブロック分解を開発する。
16k文脈の書籍長テキスト上での30Mパラメータモデルのエンドツーエンド事前学習では、損失の0.36%しか減少せず、12.2%のランタイム削減を実現し、効率的なトランスフォーマー事前学習のためのマルチポール近似の実現性を確立した。
関連論文リスト
- RAT: Bridging RNN Efficiency and Attention Accuracy via Chunk-based Sequence Modeling [27.094682429698384]
RNNの効率性と注目度を橋渡しする中間設計であるRATを提案する。
RATは入力をチャンクに分割し、局所的な依存関係に対して各チャンク内で繰り返し適用する。
チャンクサイズが16のRATブロックは、100Kトークンシーケンスと9倍の4K位置で、トレーニング速度を7倍改善する。
論文 参考訳(メタデータ) (2025-07-06T15:08:49Z) - Scalable Context-Preserving Model-Aware Deep Clustering for Hyperspectral Images [51.95768218975529]
ハイパースペクトル画像(HSI)の教師なし解析にサブスペースクラスタリングが広く採用されている。
近年のモデル対応深層空間クラスタリング手法では、O(n2)の複雑性を持つ自己表現行列の計算とスペクトルクラスタリングを含む2段階のフレームワークを用いることが多い。
本稿では,HSIクラスタリングを効率的に行うために,局所構造と非局所構造を協調的にキャプチャする,ベース表現に基づく拡張性のあるコンテキスト保存深層クラスタリング手法を提案する。
論文 参考訳(メタデータ) (2025-06-12T16:43:09Z) - Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。
本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。
1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文 参考訳(メタデータ) (2025-05-16T13:48:33Z) - Radius-Guided Post-Clustering for Shape-Aware, Scalable Refinement of k-Means Results [1.9580473532948401]
標準k平均の後、各クラスター中心は半径(割り当てられた点までの距離)が割り当てられ、半径が重なり合うクラスタがマージされる。
この後処理ステップは、k が k である限り、正確な k の要求を緩める。
この手法は意味のあるマージの上に非推定形状を再構成することができる。
論文 参考訳(メタデータ) (2025-04-28T22:30:53Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - Subspace clustering in high-dimensions: Phase transitions \&
Statistical-to-Computational gap [24.073221004661427]
部分空間クラスタリングを研究するための単純なモデルは、高次元の$k$-ガウス混合モデルである。
広帯域な高次元状態における統計的に最適な再構成誤差を正確に評価する。
論文 参考訳(メタデータ) (2022-05-26T17:47:35Z) - An Exact Algorithm for Semi-supervised Minimum Sum-of-Squares Clustering [0.5801044612920815]
半教師付きMSSCのための分岐結合アルゴリズムを提案する。
背景知識はペアワイズ・マスタリンクと結びつかない制約として組み込まれている。
提案したグローバル最適化アルゴリズムは,実世界のインスタンスを最大800個のデータポイントまで効率的に解決する。
論文 参考訳(メタデータ) (2021-11-30T17:08:53Z) - ParChain: A Framework for Parallel Hierarchical Agglomerative Clustering
using Nearest-Neighbor Chain [6.824747267214373]
本稿では並列階層クラスタリング(HAC)アルゴリズムを設計するためのParChainフレームワークを提案する。
従来の並列HACアルゴリズムと比較して、我々の新しいアルゴリズムは線形メモリしか必要とせず、大規模データセットにスケーラブルである。
我々のアルゴリズムは、既存のアルゴリズムでは処理できない数千万のポイントでデータセットのサイズにスケールすることができる。
論文 参考訳(メタデータ) (2021-06-08T23:13:27Z) - (k, l)-Medians Clustering of Trajectories Using Continuous Dynamic Time
Warping [57.316437798033974]
本研究では,トラジェクトリの集中型クラスタリングの問題について考察する。
我々はDTWの連続バージョンを距離測定として使用することを提案し、これをCDTW(Continuous dynamic time warping)と呼ぶ。
一連の軌道から中心を計算し、その後反復的に改善する実践的な方法を示す。
論文 参考訳(メタデータ) (2020-12-01T13:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。