論文の概要: Training-free Context-adaptive Attention for Efficient Long Context Modeling
- arxiv url: http://arxiv.org/abs/2512.09238v1
- Date: Wed, 10 Dec 2025 01:54:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.363131
- Title: Training-free Context-adaptive Attention for Efficient Long Context Modeling
- Title(参考訳): 学習不要な文脈適応的注意力による長期学習の効率化
- Authors: Zeng You, Yaofo Chen, Shuhai Zhang, Zhijie Qiu, Tingyu Wu, Yingjian Li, Yaowei Wang, Mingkui Tan,
- Abstract要約: トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
- 参考スコア(独自算出の注目度): 57.703159205740185
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities across a wide range of natural language processing tasks. These capabilities stem primarily from the self-attention mechanism, which enables modeling of long-range dependencies. However, the quadratic complexity of self-attention with respect to sequence length poses significant computational and memory challenges, especially as sequence length extends to extremes. While various sparse attention and KV cache compression methods have been proposed to improve efficiency, they often suffer from limitations such as reliance on fixed patterns, inability to handle both prefilling and decoding stages, or the requirement for additional training. In this paper, we propose Training-free Context-adaptive Attention (TCA-Attention), a training-free sparse attention mechanism that selectively attends to only the informative tokens for efficient long-context inference. Our method consists of two lightweight phases: i) an offline calibration phase that determines head-specific sparsity budgets via a single forward pass, and ii) an online token selection phase that adaptively retains core context tokens using a lightweight redundancy metric. TCA-Attention provides a unified solution that accelerates both prefilling and decoding while reducing KV cache memory footprint, without requiring parameter updates or architectural changes. Theoretical analysis shows that our approach maintains bounded approximation error. Extensive experiments demonstrate that TCA-Attention achieves a 2.8$\times$ speedup and reduces KV cache by 61% at 128K context length while maintaining performance comparable to full attention across various benchmarks, offering a practical plug-and-play solution for efficient long-context inference.
- Abstract(参考訳): 大規模言語モデル(LLM)は、広範囲の自然言語処理タスクで顕著な機能を示している。
これらの機能は、主に長距離依存関係のモデリングを可能にする自己アテンションメカニズムに基づいている。
しかし、配列長に関する自己注意の二次的な複雑さは、特に配列長が極端に延びるにつれて、計算と記憶の重大な課題を引き起こす。
効率を改善するために、様々なスパークな注意とKVキャッシュ圧縮法が提案されているが、それらはしばしば、固定パターンへの依存、プリフィルとデコードの両方を扱うことができないこと、追加のトレーニングの必要性といった制限に悩まされている。
本稿では,学習自由コンテキスト適応注意(TCA-Attention)を提案する。これは,学習自由なスパースアテンション機構であり,より効率的な長文推論のための情報トークンのみに選択的に参画する。
本手法は,2つの軽量位相からなる。
一 単一の前方通過により頭部特定余剰予算を決定するオフラインの校正段階
二 軽量冗長度メートル法を用いて、コアコンテキストトークンを適応的に保持するオンライントークン選択フェーズ
TCA-Attentionは、パラメータ更新やアーキテクチャ変更を必要とせずに、KVキャッシュメモリフットプリントを削減しながら、プリフィルとデコードの両方を高速化する統合ソリューションを提供する。
理論的解析により,本手法は有界近似誤差を維持していることが示された。
大規模な実験により、TCA-Attentionは2.8$\times$のスピードアップを実現し、KVキャッシュを128Kのコンテキスト長で61%削減し、様々なベンチマークにまたがるパフォーマンスを維持しながら、効率的なロングコンテキスト推論のための実用的なプラグアンドプレイソリューションを提供する。
関連論文リスト
- KVCompose: Efficient Structured KV Cache Compression with Composite Tokens [7.922206020386125]
大規模言語モデル(LLM)は、効率的な自己回帰復号化のためにキー値(KV)キャッシュに依存している。
我々は,注意誘導型,層適応型複合トークンに基づく,シンプルで効果的なKVキャッシュ圧縮フレームワークを提案する。
本手法は精度を保ちながらメモリの大幅な削減を実現し,従来手法と半構造化手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-05T14:58:24Z) - Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache [67.47789629197857]
本稿では,トランスヘッド次元の不均一な役割を生かした学習自由フレームワークを提案する。
フーリエアテンションは、長コンテキスト非感性次元をフーリエ基底に投影することにより、その時間的進化を固定長のスペクトル係数で近似する。
本稿では,FourierAttention が LongBench と Needle-In-A-Haystack 上で最高の長文精度を実現することを示す。
論文 参考訳(メタデータ) (2025-06-13T15:35:54Z) - Tactic: Adaptive Sparse Attention with Clustering and Distribution Fitting for Long-Context LLMs [10.52833484759311]
本稿では,空間適応型かつキャリブレーションフリーなスパースアテンション機構であるTacticを提案する。
固定されたトークン予算ではなく、累積的な注意スコアに基づいてトークンを動的に選択する。
我々は、Tacticが既存のスパースアテンションアルゴリズムより優れており、精度が良く、7.29倍のデコードアテンションスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2025-02-17T08:39:43Z) - Cross-Self KV Cache Pruning for Efficient Vision-Language Inference [19.062950348441426]
KVキャッシュプルーニングは、長文自動回帰生成におけるメモリと計算コストを削減するための有望な手法として登場した。
我々は、注意スコアをモダリティ内注意(同じモダリティ)とモダリティ間注意(全体モダリティ)に分解することを提案する。
最終的なトレーニング不要手法である textbfCross-textbfSelf textbfPruning (CSP) は、完全なKVキャッシュを持つモデルと比較して、競争性能が向上する。
論文 参考訳(メタデータ) (2024-12-05T22:47:17Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。