論文の概要: Double-P: Hierarchical Top-P Sparse Attention for Long-Context LLMs
- arxiv url: http://arxiv.org/abs/2602.05191v1
- Date: Thu, 05 Feb 2026 01:37:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.701793
- Title: Double-P: Hierarchical Top-P Sparse Attention for Long-Context LLMs
- Title(参考訳): 長期LLMのための二重P:階層的Top-Pスパースアテンション
- Authors: Wentao Ni, Kangqi Zhang, Zhongming Yu, Oren Nelson, Mingu Lee, Hong Cai, Fatih Porikli, Jongryool Kim, Zhijian Liu, Jishen Zhao,
- Abstract要約: 長文推論は、大きな言語モデルの中心となる。
トップpのスパースアテンションは、アテンションの質量を直接保存し、より強力な精度保証を提供する。
既存のトップpメソッドは、トップpの精度、選択オーバーヘッド、わずかな注意コストを共同で最適化することができない。
- 参考スコア(独自算出の注目度): 45.84463775890072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As long-context inference becomes central to large language models (LLMs), attention over growing key-value caches emerges as a dominant decoding bottleneck, motivating sparse attention for scalable inference. Fixed-budget top-k sparse attention cannot adapt to heterogeneous attention distributions across heads and layers, whereas top-p sparse attention directly preserves attention mass and provides stronger accuracy guarantees. Existing top-p methods, however, fail to jointly optimize top-p accuracy, selection overhead, and sparse attention cost, which limits their overall efficiency. We present Double-P, a hierarchical sparse attention framework that optimizes all three stages. Double-P first performs coarse-grained top-p estimation at the cluster level using size-weighted centroids, then adaptively refines computation through a second top-p stage that allocates token-level attention only when needed. Across long-context benchmarks, Double-P consistently achieves near-zero accuracy drop, reducing attention computation overhead by up to 1.8x and delivers up to 1.3x end-to-end decoding speedup over state-of-the-art fixed-budget sparse attention methods.
- Abstract(参考訳): 長文推論が大規模言語モデル(LLM)の中心となるにつれ、キー値キャッシュの増加に対する注意がデコードボトルネックの主流として現れ、スケーラブルな推論のための疎結合な注意を喚起する。
固定予算トップkスパースアテンションは頭や層間の不均一なアテンション分布に適応できないが、トップpスパースアテンションはアテンション質量を直接保存し、より強い精度保証を提供する。
しかし、既存のトップp手法では、トップpの精度、選択のオーバーヘッド、注意の少ないコストを共同で最適化することができず、全体の効率を損なう。
3つのステージを最適化する階層的なスパースアテンションフレームワークであるDouble-Pを提案する。
最初に、Double-Pは、サイズ重み付きセントロイドを用いてクラスタレベルで粗いトップp推定を行い、次に、必要時にトークンレベルの注意を割り当てる第2のトップpステージを通じて、計算を適応的に洗練する。
長いコンテキストのベンチマークを通じて、Double-Pは、ほぼゼロに近い精度の低下を一貫して達成し、注意計算のオーバーヘッドを最大1.8倍に減らし、最先端の固定予算のスパースアテンションメソッドよりも最大1.3倍のエンドツーエンドのデコードスピードアップを提供する。
関連論文リスト
- Kascade: A Practical Sparse Attention Method for Long-Context LLM Inference [9.469995152350899]
我々は、既知の観測値を活用する訓練不要なスパースアテンション手法であるカスケードを提案する。
Kascadeは、小さなアンカー層で正確なTop-kインデックスを計算し、それらのインデックスを中間再利用層で再利用する。
Kascadeは、H100 GPU上のFlashAttention-3ベースラインに対して、デコードアテンションの最大4.1倍、プリフィルアテンションの2.2倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-12-18T10:37:14Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - DELTA: Dynamic Layer-Aware Token Attention for Efficient Long-Context Reasoning [6.468843780300177]
モデル精度を犠牲にすることなく計算効率を向上する訓練不要なスパースアテンション機構である textbfDELTA を提案する。
この結果から,中間注意マップの選択的再利用は,より効率的な長文推論への頑健な道を提供することが示された。
論文 参考訳(メタデータ) (2025-10-10T21:37:49Z) - vAttention: Verified Sparse Attention [100.98210818821688]
vAttentionは、ユーザが指定した$(epsilon, delta)$の近似精度保証(thus, confirmed)を備えた実用的なスパースアテンションメカニズムである。
vAttentionはデータセット間のスパースアテンションの質を大幅に改善することを示す。
モデルの品質を損なうことなく高速なデコードを実現するために、推論シナリオにデプロイすることができる。
論文 参考訳(メタデータ) (2025-10-07T08:46:08Z) - ProxyAttn: Guided Sparse Attention via Representative Heads [59.03412871683236]
より正確なブロック推定を実現する訓練不要なスパースアテンションアルゴリズムであるProxyAttnを提案する。
本稿では,ProxyAttnが最大10.3倍の注意加速度と2.4倍の事前充足加速度を実現できることを示す。
論文 参考訳(メタデータ) (2025-09-29T13:10:39Z) - AnchorAttention: Difference-Aware Sparse Attention with Stripe Granularity [9.63873831179673]
拡張コンテキスト長を持つ大規模言語モデル(LLM)は、事前充足フェーズにおいて重大な計算上の課題に直面します。
重要な注意領域を効率よく識別する,差認識型動的スパースアテンション機構である textbfAnchorAttention を提案する。
textbfAnchorAttentionは、粒度の細かいスペーシング戦略により、同じリコールレベルでより高いスペーサ率を実現し、計算時間を著しく短縮する。
論文 参考訳(メタデータ) (2025-05-29T14:59:06Z) - Accelerating Prefilling for Long-Context LLMs via Sparse Pattern Sharing [4.7924863950812995]
スパースアテンション手法は、長文推論のプレフィルフェーズを高速化するために、注意対象の空間性を利用する。
本稿では,頭部に共通する類似の注意パターンを共有する,高精度なスパースアテンション機構を提案する。
本手法は,少数の頭部のみに注意を払いながら,実際のパターンを効果的に把握する。
論文 参考訳(メタデータ) (2025-05-26T06:48:53Z) - Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。
本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。
1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文 参考訳(メタデータ) (2025-05-16T13:48:33Z) - Tactic: Adaptive Sparse Attention with Clustering and Distribution Fitting for Long-Context LLMs [10.52833484759311]
本稿では,空間適応型かつキャリブレーションフリーなスパースアテンション機構であるTacticを提案する。
固定されたトークン予算ではなく、累積的な注意スコアに基づいてトークンを動的に選択する。
我々は、Tacticが既存のスパースアテンションアルゴリズムより優れており、精度が良く、7.29倍のデコードアテンションスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2025-02-17T08:39:43Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。