論文の概要: FASA: Frequency-aware Sparse Attention
- arxiv url: http://arxiv.org/abs/2602.03152v2
- Date: Thu, 05 Feb 2026 03:33:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 14:11:23.870221
- Title: FASA: Frequency-aware Sparse Attention
- Title(参考訳): FASA:周波数対応スパース注意
- Authors: Yifei Wang, Yueqi Wang, Zhenrui Yue, Huimin Zeng, Yong Wang, Ismini Lourentzou, Zhengzhong Tu, Xiangxiang Chu, Julian McAuley,
- Abstract要約: 本稿では,トークンの重要度を動的に予測することで,クエリ対応のトークン消去を実現する新しいフレームワークであるFASAを提案する。
我々の重要な発見は、小さな「支配的」FCの特定可能なサブセットが、常に注目の頭文字と高い文脈の一致を示すことである。
長いコンテキストのタスクのスペクトル全体にわたって、FASAは全てのトークン放出ベースラインを一貫して上回り、ニアオラクル精度を達成する。
- 参考スコア(独自算出の注目度): 56.26881872333624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The deployment of Large Language Models (LLMs) faces a critical bottleneck when handling lengthy inputs: the prohibitive memory footprint of the Key Value (KV) cache. To address this bottleneck, the token pruning paradigm leverages attention sparsity to selectively retain a small, critical subset of tokens. However, existing approaches fall short, with static methods risking irreversible information loss and dynamic strategies employing heuristics that insufficiently capture the query-dependent nature of token importance. We propose FASA, a novel framework that achieves query-aware token eviction by dynamically predicting token importance. FASA stems from a novel insight into RoPE: the discovery of functional sparsity at the frequency-chunk (FC) level. Our key finding is that a small, identifiable subset of "dominant" FCs consistently exhibits high contextual agreement with the full attention head. This provides a robust and computationally free proxy for identifying salient tokens. Building on this insight, FASA first identifies a critical set of tokens using dominant FCs, and then performs focused attention computation solely on this pruned subset. Across a spectrum of long-context tasks, from sequence modeling to complex CoT reasoning, FASA consistently outperforms all token-eviction baselines and achieves near-oracle accuracy, demonstrating remarkable robustness even under constraint budgets. Notably, on LongBench-V1, FASA reaches nearly 100\% of full-KV performance when only keeping 256 tokens, and achieves 2.56$\times$ speedup using just 18.9\% of the cache on AIME24.
- Abstract(参考訳): 大きな言語モデル(LLM)のデプロイメントは、キーバリュー(KV)キャッシュの禁止されたメモリフットプリントという、長い入力を処理する上で、重大なボトルネックに直面します。
このボトルネックに対処するために、トークンプルーニングのパラダイムは、注意空間を活用して、トークンの小さなクリティカルなサブセットを選択的に保持する。
しかし、既存のアプローチでは、不可逆的な情報損失のリスクを負う静的メソッドや、トークンの重要性のクエリ依存の性質を不十分に捉えるヒューリスティックスを用いた動的戦略が不足している。
本稿では,トークンの重要度を動的に予測することで,クエリ対応のトークン消去を実現する新しいフレームワークであるFASAを提案する。
FASAは、周波数チャンク(FC)レベルでの機能的疎結合の発見という、RoPEに関する新しい知見に由来する。
我々の重要な発見は、小さな「支配的」FCの特定可能なサブセットが、常に注目の頭文字と高い文脈の一致を示すことである。
これにより、健全なトークンを識別するための堅牢で計算的に自由なプロキシが提供される。
この知見に基づいて、FASA はまず支配的な FC を用いて重要なトークンの集合を識別し、その後、この切断された部分集合にのみ焦点をあてる計算を行う。
シーケンスモデリングから複雑なCoT推論まで、長いコンテキストのタスクの範囲で、FASAは全てのトークン放出ベースラインを一貫して上回り、ほぼ器用な精度を達成し、制約予算の下でも顕著な堅牢性を示す。
特にLongBench-V1では、256トークンを保持するだけでフルKV性能の100倍近くに達し、AIME24のキャッシュの18.9倍で2.56$\times$スピードアップを達成した。
関連論文リスト
- Focus-dLLM: Accelerating Long-Context Diffusion LLM Inference via Confidence-Guided Context Focusing [18.405286688847827]
Diffusion Large Language Models (dLLMs) は、非自己回帰デコードパラダイムで強力な長文処理機能を提供する。
提案するFocus-dLLMは,高精度で高精度な長文dLLM推論に適した,新しいトレーニング不要な注意スペルシフィケーションフレームワークである。
論文 参考訳(メタデータ) (2026-02-02T14:36:10Z) - Cache What Lasts: Token Retention for Memory-Bounded KV Cache in LLMs [26.951325519894525]
本稿では,軽量保持ゲートを介して各トークンの創出時の本質的な重要性を学習する手法を提案する。
我々は,特に低メモリ環境において,強い信念と学習可能な検索ベースラインを一貫して上回ることを示す。
一部の設定ではフルキャッシュモデルを超えており、選択的な保持が正規化の一形態として機能することを示している。
論文 参考訳(メタデータ) (2025-12-03T00:20:35Z) - Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction [53.83828564664595]
大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。
KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。
ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
論文 参考訳(メタデータ) (2025-09-13T03:34:12Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。