論文の概要: Multipole Semantic Attention: A Fast Approximation of Softmax Attention for Pretraining
- arxiv url: http://arxiv.org/abs/2509.10406v2
- Date: Mon, 15 Sep 2025 15:24:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 13:19:48.002692
- Title: Multipole Semantic Attention: A Fast Approximation of Softmax Attention for Pretraining
- Title(参考訳): マルチポールセマンティックアテンション:事前トレーニングのためのソフトマックスアテンションの高速近似
- Authors: Rupert Mitchell, Kristian Kersting,
- Abstract要約: ソフトマックスアテンションの効率的な近似であるmultipole Semantic Attention (MuSe)を提案する。
本手法は,クエリとキーを個別にクラスタリングすることで,コンテクスト長の変換器の2次計算複雑性に対処する。
因果的注意を喚起するために、正確な局所計算と効率的な長距離近似を組み合わせた階層的ブロック分解を開発する。
- 参考スコア(独自算出の注目度): 36.70261826975876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Multipole Semantic Attention (MuSe), an efficient approximation of softmax attention that combines semantic clustering with multipole expansions from computational physics. Our method addresses the quadratic computational complexity of transformers in the context length by clustering queries and keys separately in their learned representation spaces, enabling a hierarchical two-stage attention mechanism. Unlike prior clustering approaches that group only keys or use unified clustering, we maintain separate clusterings that respect attention's asymmetric treatment of these spaces. We augment centroid-based (monopole) approximations with dipole corrections that capture directional variance within clusters, preserving richer information during training. The method operates as a drop-in replacement for standard attention, requiring only hyperparameter specification without architectural modifications. Our approach achieves $\mathcal{O}(NCD)$ complexity for acausal attention with $C$ clusters and $\mathcal{O}(NCD \log N)$ for causal attention. On isolated attention layers, we demonstrate $3\times$ speedup over CUDNN Flash Attention at 8k context length, with relative squared errors below 20%. For causal attention, we develop a hierarchical block decomposition that combines exact local computation with efficient long-range approximation. In end-to-end pretraining of a 30M parameter model on book-length texts with 16k context, we achieve 12.2% runtime reduction with only 0.36% loss degradation, establishing the viability of multipole approximations for efficient transformer pretraining.
- Abstract(参考訳): 本稿では,セマンティッククラスタリングと計算物理学からのマルチポール展開を組み合わせた,ソフトマックスアテンションの効率的な近似であるMultipole Semantic Attention(MuSe)を提案する。
本手法は,学習した表現空間にクエリとキーを個別にクラスタリングすることで,文脈長の変換器の2次計算複雑性に対処し,階層的な2段階の注意機構を実現する。
キーのみをグループ化する以前のクラスタリングアプローチと異なり、これらの空間の非対称な処理を尊重する別個のクラスタリングを維持している。
集中型(モノポール)近似を双極子補正で拡張し、クラスタ内の方向のばらつきを捉え、トレーニング中によりリッチな情報を保存する。
この手法は標準的な注意の代替として機能し、アーキテクチャの変更なしにハイパーパラメータ仕様のみを必要とする。
我々の手法は、因果的注意のために、$C$クラスタと$\mathcal{O}(NCD \log N)$で、因果的注意のために$\mathcal{O}(NCD)$複雑性を実現する。
分離された注意層上では、CUDNN Flash Attentionを8kのコンテキスト長で3ドル以上のスピードアップし、相対的な2乗誤差を20%以下で示します。
因果的注意を喚起するために、正確な局所計算と効率的な長距離近似を組み合わせた階層的ブロック分解を開発する。
16k文脈の書籍長テキスト上での30Mパラメータモデルのエンドツーエンド事前学習では、損失の0.36%しか減少せず、12.2%のランタイム削減を実現し、効率的なトランスフォーマー事前学習のためのマルチポール近似の実現性を確立した。
関連論文リスト
- VSPrefill: Vertical-Slash Sparse Attention with Lightweight Indexing for Long-Context Prefilling [0.0]
既存のスパースアテンション手法は、コンテキスト適応性、オーバーヘッドのサンプリング、微調整コストのトレードオフに直面している。
注意分布に垂直スラッシュ構造パターンを用いる軽量なトレーニング機構であるVSPrefillを提案する。
VSPrefillは注意点の98.35%を保存し、コンテキスト長128kで平均4.95倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2026-03-03T09:24:58Z) - Neuronal Attention Circuit (NAC) for Representation Learning [2.0573301822495553]
線形一階ODEの解法としてアテンションロジット計算を再構成するCT-Attention機構を導入する。
我々は、不規則な時系列分類、自動運転車の車線維持、産業の予後など、さまざまな領域でNACを実装している。
論文 参考訳(メタデータ) (2025-12-11T04:49:44Z) - Rate optimal learning of equilibria from data [63.14746189846806]
マルチエージェント・イミテーション・ラーニング(MAIL)における理論的ギャップは,非対話的MAILの限界を特徴づけ,ほぼ最適なサンプル複雑性を持つ最初の対話的アルゴリズムを提示することによって解決する。
インタラクティブな設定では、報酬のない強化学習と対話型MAILを組み合わせたフレームワークを導入し、それをMAIL-WARMというアルゴリズムでインスタンス化する。
我々は,我々の理論を裏付ける数値的な結果を提供し,グリッドワールドのような環境において,行動クローンが学習に失敗する状況を示す。
論文 参考訳(メタデータ) (2025-10-10T12:28:35Z) - RAT: Bridging RNN Efficiency and Attention Accuracy via Chunk-based Sequence Modeling [27.094682429698384]
RNNの効率性と注目度を橋渡しする中間設計であるRATを提案する。
RATは入力をチャンクに分割し、局所的な依存関係に対して各チャンク内で繰り返し適用する。
チャンクサイズが16のRATブロックは、100Kトークンシーケンスと9倍の4K位置で、トレーニング速度を7倍改善する。
論文 参考訳(メタデータ) (2025-07-06T15:08:49Z) - Scalable Context-Preserving Model-Aware Deep Clustering for Hyperspectral Images [51.95768218975529]
ハイパースペクトル画像(HSI)の教師なし解析にサブスペースクラスタリングが広く採用されている。
近年のモデル対応深層空間クラスタリング手法では、O(n2)の複雑性を持つ自己表現行列の計算とスペクトルクラスタリングを含む2段階のフレームワークを用いることが多い。
本稿では,HSIクラスタリングを効率的に行うために,局所構造と非局所構造を協調的にキャプチャする,ベース表現に基づく拡張性のあるコンテキスト保存深層クラスタリング手法を提案する。
論文 参考訳(メタデータ) (2025-06-12T16:43:09Z) - Near-Optimal Clustering in Mixture of Markov Chains [74.3828414695655]
我々は、長さ$H$の軌跡を、大きさ$S$の有限状態空間上の未知のエルゴードマルコフ鎖の1つによって生成される、$T$ trajectories of length $H$の問題を研究する。
我々は、連鎖の遷移核間の重み付きKL分散によって支配されるクラスタリングエラー率に基づいて、インスタンス依存で高い確率の低い境界を導出する。
次に,新しい2段階クラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-02T05:10:40Z) - AnchorAttention: Difference-Aware Sparse Attention with Stripe Granularity [9.63873831179673]
拡張コンテキスト長を持つ大規模言語モデル(LLM)は、事前充足フェーズにおいて重大な計算上の課題に直面します。
重要な注意領域を効率よく識別する,差認識型動的スパースアテンション機構である textbfAnchorAttention を提案する。
textbfAnchorAttentionは、粒度の細かいスペーシング戦略により、同じリコールレベルでより高いスペーサ率を実現し、計算時間を著しく短縮する。
論文 参考訳(メタデータ) (2025-05-29T14:59:06Z) - Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。
本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。
1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文 参考訳(メタデータ) (2025-05-16T13:48:33Z) - Radius-Guided Post-Clustering for Shape-Aware, Scalable Refinement of k-Means Results [1.9580473532948401]
標準k平均の後、各クラスター中心は半径(割り当てられた点までの距離)が割り当てられ、半径が重なり合うクラスタがマージされる。
この後処理ステップは、k が k である限り、正確な k の要求を緩める。
この手法は意味のあるマージの上に非推定形状を再構成することができる。
論文 参考訳(メタデータ) (2025-04-28T22:30:53Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - Subspace clustering in high-dimensions: Phase transitions \&
Statistical-to-Computational gap [24.073221004661427]
部分空間クラスタリングを研究するための単純なモデルは、高次元の$k$-ガウス混合モデルである。
広帯域な高次元状態における統計的に最適な再構成誤差を正確に評価する。
論文 参考訳(メタデータ) (2022-05-26T17:47:35Z) - An Exact Algorithm for Semi-supervised Minimum Sum-of-Squares Clustering [0.5801044612920815]
半教師付きMSSCのための分岐結合アルゴリズムを提案する。
背景知識はペアワイズ・マスタリンクと結びつかない制約として組み込まれている。
提案したグローバル最適化アルゴリズムは,実世界のインスタンスを最大800個のデータポイントまで効率的に解決する。
論文 参考訳(メタデータ) (2021-11-30T17:08:53Z) - ParChain: A Framework for Parallel Hierarchical Agglomerative Clustering
using Nearest-Neighbor Chain [6.824747267214373]
本稿では並列階層クラスタリング(HAC)アルゴリズムを設計するためのParChainフレームワークを提案する。
従来の並列HACアルゴリズムと比較して、我々の新しいアルゴリズムは線形メモリしか必要とせず、大規模データセットにスケーラブルである。
我々のアルゴリズムは、既存のアルゴリズムでは処理できない数千万のポイントでデータセットのサイズにスケールすることができる。
論文 参考訳(メタデータ) (2021-06-08T23:13:27Z) - (k, l)-Medians Clustering of Trajectories Using Continuous Dynamic Time
Warping [57.316437798033974]
本研究では,トラジェクトリの集中型クラスタリングの問題について考察する。
我々はDTWの連続バージョンを距離測定として使用することを提案し、これをCDTW(Continuous dynamic time warping)と呼ぶ。
一連の軌道から中心を計算し、その後反復的に改善する実践的な方法を示す。
論文 参考訳(メタデータ) (2020-12-01T13:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。