論文の概要: ART: Attention Run-time Termination for Efficient Large Language Model Decoding
- arxiv url: http://arxiv.org/abs/2606.00024v2
- Date: Mon, 08 Jun 2026 13:51:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.58297
- Title: ART: Attention Run-time Termination for Efficient Large Language Model Decoding
- Title(参考訳): ART: 効率的な大規模言語モデルデコーディングのためのアテンション実行時間終了
- Authors: Chen Qiu, Guozhong Li, Cristian McGee, Aritra Dutta, Panos Kalnis,
- Abstract要約: LLM(Long-context Decoding in Large Language Models)は、キーバリュー(KV)キャッシュへのアクセスと処理のコストによって制約される。
本稿では,カーネル実行時のアテンション出力の追跡を行う軽量な実行時機構であるAttention Run-time Termination(ART)を提案する。
LongBenchおよびRULER Needle-in-a-Haystackタスクの実験では、ARTが既存のKV-cacheメソッドの生成スループットを最大20%向上することが示された。
- 参考スコア(独自算出の注目度): 7.365525319097287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context decoding in Large Language Models (LLMs) is constrained by the cost of accessing and processing the Key-Value (KV) cache. Despite the evidence that attention outputs depend jointly on keys and values, most existing KV management methods rely on key-only pruning, as incorporating values incurs prohibitive additional overhead. In this paper, we propose Attention Run-time Termination (ART), a lightweight run-time mechanism that tracks accumulated attention outputs during kernel execution and terminates subsequent KV block accesses once further contributions become negligible. Rather than replacing KV selection, ART dynamically terminates redundant KV traversal on top of existing dense or sparse attention policies. We introduce a stability-based criterion that monitors both magnitude and directional changes of intermediate attention outputs, and provide a theoretical characterization of the resulting truncation error. Experiments on LongBench and RULER Needle-in-a-Haystack tasks show that ART increases the generation throughput of existing KV-cache methods by up to 20%, without compromising the quality of the results.
- Abstract(参考訳): LLM(Long-context Decoding in Large Language Models)は、キーバリュー(KV)キャッシュへのアクセスと処理のコストによって制約される。
注意出力が鍵と値に共同で依存する証拠があるにもかかわらず、既存のKV管理手法はキーのみのプルーニングに依存している。
本稿では,カーネル実行中に蓄積した注意情報を追跡し,その後のKVブロックへのアクセスを停止する軽量な実行時機構であるAttention Run-time Termination(ART)を提案する。
KV選択を置き換えるのではなく、ARTは既存の高密度または疎度な注意ポリシーの上に、冗長なKVトラバーサルを動的に終了する。
本稿では,中間注意出力の等級変化と方向変化をモニタする安定性に基づく基準を導入し,その結果のトランケーション誤差を理論的に評価する。
LongBenchおよびRULER Needle-in-a-Haystackタスクの実験では、ARTは結果の品質を損なうことなく、既存のKV-cacheメソッドの生成スループットを最大20%向上することを示した。
関連論文リスト
- ReST-KV: Robust KV Cache Eviction with Layer-wise Output Reconstruction and Spatial-Temporal Smoothing [41.23077900713446]
大規模言語モデル(LLM)は、キーバリュー(KV)キャッシュのメモリ要求の増加により、効率的な生成推論の課題に直面している。
本稿では,階層的出力再構成と空間的空間的平滑化を組み合わせたロバストなKV消去手法であるReST-KVを提案する。
論文 参考訳(メタデータ) (2026-05-09T09:49:32Z) - DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - ForesightKV: Optimizing KV Cache Eviction for Reasoning Models by Learning Long-Term Contribution [84.41751286055909]
我々は、長文世代におけるどのKVペアを退避させるかを予測する訓練ベースのKVキャッシュ消去フレームワークを開発した。
我々は、マルコフ決定過程としてキャッシュ消去を定式化し、GRPOアルゴリズムを適用し、低エントロピートークンにおける言語モデリング損失の増加を緩和する。
論文 参考訳(メタデータ) (2026-02-03T07:16:51Z) - G-KV: Decoding-Time KV Cache Eviction with Global Attention [57.47409249054187]
大規模言語モデル(LLM)は複雑なタスクに優れるが、長いシーケンス長のため、計算とメモリの重大な課題に遭遇する。
KVキャッシュ圧縮は推論の効率を大幅に向上させる効果的な手法として登場した。
本稿では,グローバルスコアリング機構を用いたKVキャッシュ消去手法であるG-KVを提案する。
論文 参考訳(メタデータ) (2025-11-29T14:21:33Z) - LouisKV: Efficient KV Cache Retrieval for Long Input-Output Sequences [12.093166735658626]
キーバリュー(KV)キャッシュは、自動回帰モデルにおける冗長な計算の削減に成功している。
メモリオーバーヘッドが大幅に増加し、長時間のシナリオでの実際のデプロイメントが制限される。
既存のKV検索手法は,ページ単位の検索やページ単位の粗いKV管理によって,顕著な効率性と精度のボトルネックに悩まされている。
論文 参考訳(メタデータ) (2025-10-13T11:28:30Z) - Value-Guided KV Compression for LLMs via Approximated CUR Decomposition [24.262712463465665]
CurDKVは、CUR行列分解から計算したレバレッジスコアに基づいてキーと値を選択する、新しい、値中心のKV圧縮手法である。
我々のアプローチは、注意出力$softmax(QKT)V$の支配的部分空間を近似し、保持されたトークンがモデルの予測挙動を最善に維持することを保証する。
論文 参考訳(メタデータ) (2025-09-18T15:04:06Z) - Retrospective Sparse Attention for Efficient Long-Context Generation [5.562294018150909]
RetroAttentionは、後続の復号ステップから新たに到着したKVエントリを使用して、過去の注意出力を遡及的に更新する。
これは固定アテンション・アウトプットのパラダイムを破り、事前近似の継続的な修正を可能にする。
実験により、RetroAttention は最先端(SOTA) KV 圧縮法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-08-12T15:11:47Z) - KeepKV: Eliminating Output Perturbation in KV Cache Compression for Efficient LLMs Inference [16.53643930310808]
KeepKVは、厳しいメモリ制約下で性能を保ちながら出力摂動を排除するために設計された、新しい適応KVキャッシュマージ手法である。
KeepKVはメモリ使用量を大幅に削減し、推論スループットを2倍以上に向上し、10%のKVキャッシュ予算でも優れた生成品質を維持している。
論文 参考訳(メタデータ) (2025-04-14T06:58:00Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。