論文の概要: $A^3$: Attention-Aware Accurate KV Cache Fusion for Fast Large Language Model Serving
- arxiv url: http://arxiv.org/abs/2511.17560v1
- Date: Thu, 13 Nov 2025 07:28:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.275963
- Title: $A^3$: Attention-Aware Accurate KV Cache Fusion for Fast Large Language Model Serving
- Title(参考訳): A^3$: Atention-Awareが高速大言語モデルのKVキャッシュ融合を実現する
- Authors: Yuechi Zhou, Yi Su, Jianxin Zhang, Juntao Li, Qingrong Xia, Zhefeng Wang, Xinyu Duan, Baoxing Huai,
- Abstract要約: 大きな言語モデル(LLM)は、長いコンテキストを処理する上で強力な能力を示している。
長いシーケンスを処理できるにもかかわらず、結果としてデコーディングのレイテンシとメモリオーバーヘッドは大きいままである。
KVキャッシュの再利用の最近の進歩は、これらのコストを軽減する可能性を示しているが、それでも顕著なパフォーマンス劣化に悩まされている。
- 参考スコア(独自算出の注目度): 42.02864241423696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated strong capabilities in processing long contexts, enabling them to tackle tasks involving long textual inputs such as multi-turn conversations, legal documents, or retrieved documents in Retrieval-Augmented Generation (RAG) systems. However, despite their ability to handle long sequences, the resulting decoding latency and memory overhead remain substantial, posing challenges for real-world deployment. Recent advances in KV Cache reuse have shown potential to mitigate these costs, but still suffer from notable performance degradation. To address this issue, we conduct an in-depth investigation of recomputation-based reuse methods and observe that the recomputed tokens often fail to align with the context segments most relevant to the question. This misalignment hinders proper updates to the critical contextual representations. Therefore, we propose the $\textbf{A}$ttention-$\textbf{A}$ware $\textbf{A}$ccurate KV Cache Fusion algorithm ($A^3$), which precomputes and selectively fuses the KV Cache of text chunks based on their relevance to the question, achieving accurate integration with minimal computational overhead. Extensive experiments on various benchmarks and LLMs demonstrate that $A^3$ achieves the best task performance compared to four baselines while reducing the time-to-first-token (TTFT) by 2$\times$.
- Abstract(参考訳): 大規模言語モデル(LLM)は、長いコンテキストを処理する上で強力な能力を示しており、マルチターン会話や法的文書、レトリーバル拡張生成(RAG)システムで取得した文書などの長いテキスト入力に関わるタスクに対処することができる。
しかし、長いシーケンスを処理できるにもかかわらず、結果としてデコーディングのレイテンシとメモリオーバーヘッドが大幅に増加し、現実のデプロイメントに課題が生じる。
KVキャッシュの再利用の最近の進歩は、これらのコストを軽減する可能性を示しているが、それでも顕著なパフォーマンス劣化に悩まされている。
この問題に対処するため、再計算に基づく再利用手法の詳細な調査を行い、再計算されたトークンが問題に最も関係のあるコンテキストセグメントと整合しない場合が多いことを観察する。
このミスアライメントは、重要なコンテキスト表現の適切な更新を妨げる。
そこで本稿では,KV Cache Fusion アルゴリズム (KV Cache Fusion アルゴリズム)(A^3$) を提案する。
様々なベンチマークとLCMの大規模な実験により、$A^3$は4つのベースラインと比較して最高のタスク性能を達成し、TTFTを2$\times$に下げることを示した。
関連論文リスト
- Activation-aware Probe-Query: Effective Key-Value Retrieval for Long-Context LLMs Inference [56.71209737306054]
我々は,プローブ-textbfQuery を動的に決定し,関連する textbfKV ペアを推論するために利用する,トレーニングフリーの textbfActivation-aware アプローチである textbfActQKV を提案する。
Long-Bench と $infty$ Benchmarks の実験では、競合する推論品質とリソース効率を備えた最先端のパフォーマンスが実証されている。
論文 参考訳(メタデータ) (2025-02-19T08:50:44Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large
Language Models [110.06476624089679]
メモリフットプリントを大幅に削減する新しいKVキャッシュの実装手法を提案する。
我々のアプローチは、トークンのごく一部が、注意点の計算において、ほとんどの価値に寄与する、という観察に基づいている。
我々は,最近のトークンとH$のバランスを動的に保持するKVキャッシュ消去ポリシーであるヘビーヒッター(H$O)を提案する。
論文 参考訳(メタデータ) (2023-06-24T20:11:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。