論文の概要: $A^3$: Attention-Aware Accurate KV Cache Fusion for Fast Large Language Model Serving
- arxiv url: http://arxiv.org/abs/2511.17560v1
- Date: Thu, 13 Nov 2025 07:28:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.275963
- Title: $A^3$: Attention-Aware Accurate KV Cache Fusion for Fast Large Language Model Serving
- Title(参考訳): A^3$: Atention-Awareが高速大言語モデルのKVキャッシュ融合を実現する
- Authors: Yuechi Zhou, Yi Su, Jianxin Zhang, Juntao Li, Qingrong Xia, Zhefeng Wang, Xinyu Duan, Baoxing Huai,
- Abstract要約: 大きな言語モデル(LLM)は、長いコンテキストを処理する上で強力な能力を示している。
長いシーケンスを処理できるにもかかわらず、結果としてデコーディングのレイテンシとメモリオーバーヘッドは大きいままである。
KVキャッシュの再利用の最近の進歩は、これらのコストを軽減する可能性を示しているが、それでも顕著なパフォーマンス劣化に悩まされている。
- 参考スコア(独自算出の注目度): 42.02864241423696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated strong capabilities in processing long contexts, enabling them to tackle tasks involving long textual inputs such as multi-turn conversations, legal documents, or retrieved documents in Retrieval-Augmented Generation (RAG) systems. However, despite their ability to handle long sequences, the resulting decoding latency and memory overhead remain substantial, posing challenges for real-world deployment. Recent advances in KV Cache reuse have shown potential to mitigate these costs, but still suffer from notable performance degradation. To address this issue, we conduct an in-depth investigation of recomputation-based reuse methods and observe that the recomputed tokens often fail to align with the context segments most relevant to the question. This misalignment hinders proper updates to the critical contextual representations. Therefore, we propose the $\textbf{A}$ttention-$\textbf{A}$ware $\textbf{A}$ccurate KV Cache Fusion algorithm ($A^3$), which precomputes and selectively fuses the KV Cache of text chunks based on their relevance to the question, achieving accurate integration with minimal computational overhead. Extensive experiments on various benchmarks and LLMs demonstrate that $A^3$ achieves the best task performance compared to four baselines while reducing the time-to-first-token (TTFT) by 2$\times$.
- Abstract(参考訳): 大規模言語モデル(LLM)は、長いコンテキストを処理する上で強力な能力を示しており、マルチターン会話や法的文書、レトリーバル拡張生成(RAG)システムで取得した文書などの長いテキスト入力に関わるタスクに対処することができる。
しかし、長いシーケンスを処理できるにもかかわらず、結果としてデコーディングのレイテンシとメモリオーバーヘッドが大幅に増加し、現実のデプロイメントに課題が生じる。
KVキャッシュの再利用の最近の進歩は、これらのコストを軽減する可能性を示しているが、それでも顕著なパフォーマンス劣化に悩まされている。
この問題に対処するため、再計算に基づく再利用手法の詳細な調査を行い、再計算されたトークンが問題に最も関係のあるコンテキストセグメントと整合しない場合が多いことを観察する。
このミスアライメントは、重要なコンテキスト表現の適切な更新を妨げる。
そこで本稿では,KV Cache Fusion アルゴリズム (KV Cache Fusion アルゴリズム)(A^3$) を提案する。
様々なベンチマークとLCMの大規模な実験により、$A^3$は4つのベースラインと比較して最高のタスク性能を達成し、TTFTを2$\times$に下げることを示した。
関連論文リスト
- Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction [53.83828564664595]
大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。
KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。
ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
論文 参考訳(メタデータ) (2025-09-13T03:34:12Z) - Lookahead Q-Cache: Achieving More Consistent KV Cache Eviction via Pseudo Query [48.52389201779425]
KVキャッシュメモリの使用は、長いテキストシーケンスで大幅に増加する。
プリフィルステージアテンションスコアを用いた既存のKVキャッシュ消去手法Pruneトークン
Lookahead Q-Cacheは、真のデコードステージクエリをよりよく近似するために、低コストの疑似ルックアヘッドクエリを生成する。
論文 参考訳(メタデータ) (2025-05-24T10:34:38Z) - Activation-aware Probe-Query: Effective Key-Value Retrieval for Long-Context LLMs Inference [56.71209737306054]
我々は,プローブ-textbfQuery を動的に決定し,関連する textbfKV ペアを推論するために利用する,トレーニングフリーの textbfActivation-aware アプローチである textbfActQKV を提案する。
Long-Bench と $infty$ Benchmarks の実験では、競合する推論品質とリソース効率を備えた最先端のパフォーマンスが実証されている。
論文 参考訳(メタデータ) (2025-02-19T08:50:44Z) - A$^2$ATS: Retrieval-Based KV Cache Reduction via Windowed Rotary Position Embedding and Query-Aware Vector Quantization [17.342214950859145]
ロングコンテキストの大規模言語モデル(LLM)は、メモリフットプリントが大きく、KVキャッシュのアクセスオーバーヘッドが大きいため、効率的なサービスを実現する上で大きな課題となる。
検索ベースのKVキャッシュ削減手法は、一般的に完全なKVキャッシュをCPUにオフロードし、推論時に必要なトークンを取得することで、これらの課題を軽減することができる。
本稿では,新しい検索方式KVキャッシュ削減手法であるA$2$ATSを提案する。
論文 参考訳(メタデータ) (2025-02-18T09:11:51Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z) - H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large
Language Models [110.06476624089679]
メモリフットプリントを大幅に削減する新しいKVキャッシュの実装手法を提案する。
我々のアプローチは、トークンのごく一部が、注意点の計算において、ほとんどの価値に寄与する、という観察に基づいている。
我々は,最近のトークンとH$のバランスを動的に保持するKVキャッシュ消去ポリシーであるヘビーヒッター(H$O)を提案する。
論文 参考訳(メタデータ) (2023-06-24T20:11:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。