論文の概要: Replacing Softmax Similarity with a Sharpened Angular Similarity: Theory and Practice of Scaling To Billion-Context Attention
- arxiv url: http://arxiv.org/abs/2510.04008v1
- Date: Sun, 05 Oct 2025 02:57:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.390751
- Title: Replacing Softmax Similarity with a Sharpened Angular Similarity: Theory and Practice of Scaling To Billion-Context Attention
- Title(参考訳): ソフトマックスの類似性をAngularの類似性に置き換える - 数十億のコンテキストにスケールする理論と実践
- Authors: Sahil Joshi, Agniva Chowdhury, Amar Kanakamedala, Ekam Singh, Evan Tu, Anshumali Shrivastava,
- Abstract要約: 我々は、Softmax Attentionの代替として、カーネルにインスパイアされたRSE Attentionを紹介する。
RACE アテンションは指数核を改良した角状(コサイン)類似性に置き換える。
制御されたスケールテストでは、NVIDIA GH200 GPU上で1回の前方通過中に最大1200万のトークンを処理する。
- 参考スコア(独自算出の注目度): 21.00061869921723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Softmax Attention has a quadratic time complexity, which becomes prohibitive to run at long contexts, even with highly optimized GPU kernels. For example, FlashAttention (an exact, GPU-optimized implementation of Softmax Attention) cannot complete a single forward-backward pass of a multi-head attention layer once the context exceeds ~4 million tokens on an NVIDIA GH200 (96 GB). We introduce RACE Attention, a kernel-inspired alternative to Softmax Attention that is linear in sequence length and embedding dimension. RACE Attention replaces the exponential kernel with a sharpened angular (cosine) similarity, and approximates attention outputs via randomized projections and soft Locality-Sensitive Hashing (LSH). Across language modeling, masked language modeling, and text classification, RACE Attention matches the accuracy of strong baselines while reducing runtime and memory. In a controlled scale test, it processes up to 12 million tokens during a single forward-backward pass on an NVIDIA GH200 GPU and 75 million tokens on an Intel Xeon Gold 5220R CPU, well beyond the practical limits of the current state-of-the-art attention implementations. RACE Attention thus offers a practical, theoretically grounded mechanism for outrageously long context windows on today's hardware. We hope that it gets adopted in practice.
- Abstract(参考訳): Softmax Attentionは2次時間の複雑さを持ち、高度に最適化されたGPUカーネルであっても、長いコンテキストで実行することは禁じられている。
例えば、FlashAttention(正確にGPU最適化されたSoftmax Attentionの実装)は、NVIDIA GH200(96GB)の約400万トークンを超えると、マルチヘッドアテンション層の単一の前方パスを完了できない。
我々は,シークエンスの長さと埋め込み次元が線形であるSoftmaxアテンションの代替として,カーネルにインスパイアされたRASアテンションを導入する。
RACE Attentionは指数核を改良した角状(コサイン)類似性に置き換え、ランダムな投影とソフトな局所感性ハッシュ(LSH)を通じて注意出力を近似する。
言語モデリング、マスキング言語モデリング、テキスト分類など、RACE Attentionはランタイムとメモリを削減しながら、強いベースラインの精度と一致します。
制御されたスケールテストでは、NVIDIA GH200 GPU上の1回の前方通過中に最大1200万トークンを処理し、Intel Xeon Gold 5220R CPU上の7500万トークンを処理します。
RACE Attentionは、今日のハードウェア上で、非常に長いコンテキストウインドウに対して、実用的で理論的に基礎付けられたメカニズムを提供する。
実際に採用されることを願っている。
関連論文リスト
- NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。
我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。
提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文 参考訳(メタデータ) (2025-05-28T20:43:10Z) - MagicPIG: LSH Sampling for Efficient LLM Generation [41.75038064509643]
以上の結果から,TopKの注意力自体が特定の下流タスクの品質低下に悩まされていることが分かる。
局所感性ハッシュ(LSH)に基づく異種システムMagicPIGを提案する。
MagicPIGは、さまざまなタスクに対して高い精度を維持しながら、注意の負荷を大幅に削減する。
論文 参考訳(メタデータ) (2024-10-21T16:44:51Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z) - cosFormer: Rethinking Softmax in Attention [60.557869510885205]
カーネルメソッドは、ソフトマックス演算子を近似することで複雑さを減らすためにしばしば採用される。
近似誤差のため、それらのパフォーマンスは異なるタスク/コーパスで異なり、重要なパフォーマンス低下を被る。
本稿では,バニラ変圧器に匹敵する精度を達成できる,cosFormerと呼ばれる線形変圧器を提案する。
論文 参考訳(メタデータ) (2022-02-17T17:53:48Z) - SpAtten: Efficient Sparse Attention Architecture with Cascade Token and Head Pruning [10.981433334942476]
本稿では,トークンの空白度,頭部の空白度,量子化の機会を利用して注意計算やメモリアクセスを減らす,効率的なアルゴリズムアーキテクチャの共同設計であるSpAttenを提案する。
30のベンチマークでの実験では、SpAttenはDRAMアクセスを10.0xの精度で削減し、1.6x, 3.0x, 162x, 347xのスピードアップと1,4x, 3.2x, 1193x, 4059xの省エネを実現している。
論文 参考訳(メタデータ) (2020-12-17T18:59:07Z) - SMYRF: Efficient Attention using Asymmetric Clustering [103.47647577048782]
本稿では,注目度を近似する新しいタイプのバランスクラスタリングアルゴリズムを提案する。
SMYRFは、再トレーニングすることなく、高密度の注意層をドロップインで置き換えることができる。
SMYRFは,訓練前後の集中的注意と相互に使用できることが示唆された。
論文 参考訳(メタデータ) (2020-10-11T18:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。