論文の概要: VSPrefill: Vertical-Slash Sparse Attention with Lightweight Indexing for Long-Context Prefilling
- arxiv url: http://arxiv.org/abs/2603.04460v1
- Date: Tue, 03 Mar 2026 09:24:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:10.90313
- Title: VSPrefill: Vertical-Slash Sparse Attention with Lightweight Indexing for Long-Context Prefilling
- Title(参考訳): VSPrefill: 長期プレフィルのための軽量インデックス付き垂直スラッシュスパース注意
- Authors: Chen Guanzhong,
- Abstract要約: 既存のスパースアテンション手法は、コンテキスト適応性、オーバーヘッドのサンプリング、微調整コストのトレードオフに直面している。
注意分布に垂直スラッシュ構造パターンを用いる軽量なトレーニング機構であるVSPrefillを提案する。
VSPrefillは注意点の98.35%を保存し、コンテキスト長128kで平均4.95倍のスピードアップを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quadratic complexity of self-attention during the prefill phase impedes long-context inference in large language models. Existing sparse attention methods face a trade-off among context adaptivity, sampling overhead, and fine-tuning costs. We propose VSPrefill, a mechanism requiring lightweight training that uses the vertical-slash structural pattern in attention distributions. Our compact VSIndexer module predicts context-aware importance scores for vertical columns and slash diagonals from key-value representations augmented with RoPE. This approach constructs sparse masks with linear complexity without modifying the backbone parameters. During inference, an adaptive cumulative-threshold strategy allocates sparsity budgets per layer, while a fused kernel executes attention with on-the-fly index merging. Evaluated on Qwen3-4B-Instruct and LLaMA-3.1-8B-Instruct across the LongBench and RULER benchmarks, VSPrefill preserves 98.35% of the full attention accuracy while delivering a 4.95x average speedup at a context length of 128k. These results establish a new Pareto frontier in the trade-off between accuracy and efficiency.
- Abstract(参考訳): 準備段階における自己注意の二次的複雑さは、大規模言語モデルにおける長期コンテキスト推論を妨げている。
既存のスパースアテンション手法は、コンテキスト適応性、オーバーヘッドのサンプリング、微調整コストのトレードオフに直面している。
注意分布に垂直スラッシュ構造パターンを用いる軽量なトレーニング機構であるVSPrefillを提案する。
我々のコンパクトVSIndexerモジュールは、RoPEで強化されたキー値表現から垂直列とスラッシュ対角線に対する文脈認識の重要度スコアを予測する。
このアプローチは、バックボーンパラメータを変更することなく、線形複雑でスパースマスクを構成する。
推論中、適応的な累積閾値戦略は層毎の空間予算を割り当て、融合したカーネルはオンザフライインデックスのマージで注意を向ける。
Qwen3-4B-インストラクタとLLaMA-3.1-8B-インストラクタをLongBenchとRULERのベンチマークで評価し、VSPrefillは注意精度の98.35%を保持し、コンテキスト長128kで平均4.95倍のスピードアップを提供する。
これらの結果は、正確性と効率のトレードオフにおいて、新たなParetoフロンティアを確立します。
関連論文リスト
- Punctuation-aware Hybrid Trainable Sparse Attention for Large Language Models [44.28116882776357]
textbfPunctuation-aware textbfHybrid textbfSparse textbfAttention textbf(PHSA)を提案する。
具体的には,大域的セマンティック表現と句読点付き境界特徴を融合させ,コアセマンティック構造を保ちながら,計算オーバーヘッドをほとんど含まない二重ブランチアグリゲーション機構を設計する。
論文 参考訳(メタデータ) (2026-01-06T08:47:16Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - Long-Context Modeling with Dynamic Hierarchical Sparse Attention for On-Device LLMs [17.499497967319332]
データ駆動型フレームワークであるDynamic Hierarchical Sparse Attention (DHSA)を導入する。
DHSAは高い注意力と精度を一致させ、プリフィル遅延を20-60%削減し、ピークメモリ使用量を35%削減した。
Needle-in-a-Haystack Test と LongBench を用いたGemma2 実験では,DHSA の精度は高いが,プリフィル遅延は20~60%,ピークメモリ使用量は35%削減された。
論文 参考訳(メタデータ) (2025-10-28T16:34:18Z) - Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache [67.47789629197857]
本稿では,トランスヘッド次元の不均一な役割を生かした学習自由フレームワークを提案する。
フーリエアテンションは、長コンテキスト非感性次元をフーリエ基底に投影することにより、その時間的進化を固定長のスペクトル係数で近似する。
本稿では,FourierAttention が LongBench と Needle-In-A-Haystack 上で最高の長文精度を実現することを示す。
論文 参考訳(メタデータ) (2025-06-13T15:35:54Z) - SALE : Low-bit Estimation for Efficient Sparse Attention in Long-context LLM Prefilling [24.241825495462397]
既存のスパースアテンション手法は、アテンションマップの少ない領域をスキップすることで、アテンション計算を加速する。
モデル精度を損なうことなくLLMの長文プリフィルステージを高速化する細粒度アテンション手法であるSALEを提案する。
SALEはLlama-3.1-8Bで64Kより長いシーケンスで3.36倍のスピードアップを実現し、モデル品質を維持している。
論文 参考訳(メタデータ) (2025-05-30T03:40:24Z) - AnchorAttention: Difference-Aware Sparse Attention with Stripe Granularity [9.63873831179673]
拡張コンテキスト長を持つ大規模言語モデル(LLM)は、事前充足フェーズにおいて重大な計算上の課題に直面します。
重要な注意領域を効率よく識別する,差認識型動的スパースアテンション機構である textbfAnchorAttention を提案する。
textbfAnchorAttentionは、粒度の細かいスペーシング戦略により、同じリコールレベルでより高いスペーサ率を実現し、計算時間を著しく短縮する。
論文 参考訳(メタデータ) (2025-05-29T14:59:06Z) - ParallelComp: Parallel Long-Context Compressor for Length Extrapolation [51.68913021512016]
超長い文脈(テキスト長 >128K)の補間は、大きな言語モデル(LLM)にとって大きな課題である。
本研究では,メモリボトルネックを効果的に克服する並列長コンテキスト圧縮手法であるParallelCompを提案する。
チャンクスループットが1.76倍向上し、プリフィル段階では23.50倍の高速化を実現し、性能損失を無視できる。
論文 参考訳(メタデータ) (2025-02-20T07:10:43Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - SampleAttention: Near-Lossless Acceleration of Long Context LLM Inference with Adaptive Structured Sparse Attention [53.4441894198495]
大きな言語モデル(LLM)は、非常に長いコンテキストウィンドウをサポートするようになった。
バニラの注意の二次的な複雑さは、TTFT(Time-to-First-Token)レイテンシを著しく長くする。
適応型構造とほぼロスレスなスパースアテンションであるSampleAttentionを提案する。
論文 参考訳(メタデータ) (2024-06-17T11:05:15Z) - HyperAttention: Long-context Attention in Near-Linear Time [78.33061530066185]
本稿では,長期的文脈の複雑さの増大に伴う計算課題に対処するため,HyperAttentionという近似的な注意機構を提案する。
実証的には、大規模なエントリを特定するためにLocality Sensitive Hashing(LSH)を使用して、HyperAttentionは既存のメソッドよりも優れています。
各種長文長データセットにおけるHyperAttentionの実証的性能を検証した。
論文 参考訳(メタデータ) (2023-10-09T17:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。