論文の概要: vAttention: Verified Sparse Attention
- arxiv url: http://arxiv.org/abs/2510.05688v1
- Date: Tue, 07 Oct 2025 08:46:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.166904
- Title: vAttention: Verified Sparse Attention
- Title(参考訳): vAttention: スパース注意の検証
- Authors: Aditya Desai, Kumar Krishna Agrawal, Shuo Yang, Alejandro Cuadron, Luis Gaspar Schroeder, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica,
- Abstract要約: vAttentionは、ユーザが指定した$(epsilon, delta)$の近似精度保証(thus, confirmed)を備えた実用的なスパースアテンションメカニズムである。
vAttentionはデータセット間のスパースアテンションの質を大幅に改善することを示す。
モデルの品質を損なうことなく高速なデコードを実現するために、推論シナリオにデプロイすることができる。
- 参考スコア(独自算出の注目度): 100.98210818821688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art sparse attention methods for reducing decoding latency fall into two main categories: approximate top-$k$ (and its extension, top-$p$) and recently introduced sampling-based estimation. However, these approaches are fundamentally limited in their ability to approximate full attention: they fail to provide consistent approximations across heads and query vectors and, most critically, lack guarantees on approximation quality, limiting their practical deployment. We observe that top-$k$ and random sampling are complementary: top-$k$ performs well when attention scores are dominated by a few tokens, whereas random sampling provides better estimates when attention scores are relatively uniform. Building on this insight and leveraging the statistical guarantees of sampling, we introduce vAttention, the first practical sparse attention mechanism with user-specified $(\epsilon, \delta)$ guarantees on approximation accuracy (thus, verified). These guarantees make vAttention a compelling step toward practical, reliable deployment of sparse attention at scale. By unifying top-k and sampling, vAttention outperforms both individually, delivering a superior quality-efficiency trade-off. Our experiments show that vAttention significantly improves the quality of sparse attention (e.g., $\sim$4.5 percentage points for Llama-3.1-8B-Inst and Deepseek-R1-Distill-Llama-8B on RULER-HARD), and effectively bridges the gap between full and sparse attention (e.g., across datasets, it matches full model quality with upto 20x sparsity). We also demonstrate that it can be deployed in reasoning scenarios to achieve fast decoding without compromising model quality (e.g., vAttention achieves full model quality on AIME2024 at 10x sparsity with up to 32K token generations). Code is open-sourced at https://github.com/xAlg-ai/sparse-attention-hub.
- Abstract(参考訳): 復号遅延を減らすための最先端のスパースアテンション手法は、2つの主要なカテゴリに該当する: 近似トップ$k$(およびその拡張、トップ$p$)と、最近導入されたサンプリングベース推定である。
しかしながら、これらのアプローチは基本的に、すべての注意を近似する能力に制限されている。ヘッドとクエリベクタ間の一貫した近似を提供することができず、そして最も重要なのは、近似品質の保証が欠如しており、実際のデプロイメントが制限されていることだ。
上位$k$とランダムサンプリングは相補的である: 上位$k$は、注意スコアがいくつかのトークンで支配されているときにうまく機能するが、一方、ランダムサンプリングは、注意スコアが比較的均一であるときにより良い見積もりを提供する。
この知見に基づいてサンプリングの統計的保証を生かし、ユーザ指定の$(\epsilon, \delta)$保証(thus, confirmed)を持つ最初の実用的なスパースアテンション機構であるvAttentionを導入する。
これらの保証により、vAttentionは、大規模なスパースアテンションの実用的で信頼性の高いデプロイに向けた魅力的なステップとなる。
トップkとサンプリングを統一することで、vAttentionはどちらもパフォーマンスが向上し、優れた品質と効率のトレードオフを提供します。
実験の結果,vAttention はスパース注意の質を著しく向上させる(例えば,Llama-3.1-8B-Inst と Deepseek-R1-Distill-Llama-8B,RULER-HARD)。
また、モデルの品質を損なうことなく高速なデコーディングを実現するために推論シナリオにデプロイできることを実証した(例えば、vAttentionは、最大32Kトークン世代で10倍の間隔でAIME2024の完全なモデル品質を達成する)。
コードはhttps://github.com/xAlg-ai/sparse-attention-hubで公開されている。
関連論文リスト
- Faster Diffusion Models via Higher-Order Approximation [28.824924809206255]
本稿では,d1+2/K varepsilon-1/K $$のスコア関数評価のみを必要とする,原則付き無トレーニングサンプリングアルゴリズムを提案する。
我々の理論はロバストなvis-a-vis不正確なスコア推定であり、スコア推定誤差が増加するにつれて優雅に劣化する。
より広範に、我々は高速サンプリングのための高次手法の有効性を理解するための理論的枠組みを開発した。
論文 参考訳(メタデータ) (2025-06-30T16:49:03Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - Robust Conformal Prediction with a Single Binary Certificate [58.450154976190795]
コンフォーマル予測(CP)は、任意のモデルの出力を、真のラベルを(調整可能な)高い確率でカバーすることを保証した予測セットに変換する。
我々は,MCサンプルが著しく低い場合でも,より小さな集合を生成する頑健な共形予測を提案する。
論文 参考訳(メタデータ) (2025-03-07T08:41:53Z) - Robust Representation Consistency Model via Contrastive Denoising [83.47584074390842]
ランダムな平滑化は、敵の摂動に対する堅牢性を証明する理論的保証を提供する。
拡散モデルは、ノイズ摂動サンプルを浄化するためにランダムな平滑化に成功している。
我々は,画素空間における拡散軌跡に沿った生成的モデリングタスクを,潜在空間における識別的タスクとして再構成する。
論文 参考訳(メタデータ) (2025-01-22T18:52:06Z) - Statistical Significance of Feature Importance Rankings [3.8642937395065124]
高確率保証で最も重要な機能が正しいことを確実にするテクニックを考案する。
これらは、上位機能のセットと要素の順序をK$で評価する。
次に、2つの効率的なサンプリングアルゴリズムを導入し、おそらくは1-alpha$を超える確率で、K$の最も重要な特徴を識別する。
論文 参考訳(メタデータ) (2024-01-28T23:14:51Z) - Distance Matters For Improving Performance Estimation Under Covariate
Shift [18.68533487971233]
データセットのシフトの下では、サンプルがトレーニング分布から遠すぎると、信頼性スコアが低下する可能性がある。
実験結果から期待するトレーニング分布までの距離を考慮に入れれば,性能評価が大幅に向上することを示す。
本研究では, 自然分布と合成分布の広範にわたる13の画像分類課題に対する本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-08-14T15:49:19Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。