Fugu-MT 論文翻訳(概要): KVLink: Accelerating Large Language Models via Efficient KV Cache Reuse

論文の概要: KVLink: Accelerating Large Language Models via Efficient KV Cache Reuse

arxiv url: http://arxiv.org/abs/2502.16002v1
Date: Fri, 21 Feb 2025 23:34:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:55.92785
Title: KVLink: Accelerating Large Language Models via Efficient KV Cache Reuse
Title（参考訳）: KVLink: 効率的なKVキャッシュ再利用による大規模言語モデルの高速化
Authors: Jingbo Yang, Bairu Hou, Wei Wei, Yujia Bao, Shiyu Chang,
Abstract要約: KVLinkは、大規模言語モデル(LLM)における効率的なキー値(KV)キャッシュ再利用のためのアプローチである。 KVLinkは、連結後のグローバルな位置と一致するように、KVキャッシュの位置埋め込みを調整すること、トレーニング可能な特別なトークンを使用して自己アテンションを復元すること、混合データ微調整を適用すること、の3つの重要なコンポーネントを導入している。 7つのデータセットにわたる実験によると、KVLinkは最先端の手法よりも平均4%の精度で質問応答を改善する。
参考スコア（独自算出の注目度）: 35.97391418064724
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We describe KVLink, an approach for efficient key-value (KV) cache reuse in large language models (LLMs). In many LLM applications, different inputs can share overlapping context, such as the same retrieved document appearing in multiple queries. However, the LLMs still need to encode the entire context for each query, leading to redundant computation. In this paper, we propose a new strategy to eliminate such inefficiency, where the KV cache of each document is precomputed independently. During inference, the KV caches of retrieved documents are concatenated, allowing the model to reuse cached representations instead of recomputing them. To mitigate the performance degradation of LLMs when using KV caches computed independently for each document, KVLink introduces three key components: adjusting positional embeddings of the KV cache at inference to match the global position after concatenation, using trainable special tokens to restore self-attention across independently encoded documents, and applying mixed-data fine-tuning to enhance performance while preserving the model's original capabilities. Experiments across 7 datasets demonstrate that KVLink improves question answering accuracy by an average of 4% over state-of-the-art methods. Furthermore, by leveraging precomputed KV caches, our approach reduces time-to-first-token by up to 90% compared to standard LLM inference, making it a scalable and efficient solution for context reuse.
Abstract（参考訳）: KVLinkは,大規模言語モデル(LLM)における効率的なキー値(KV)キャッシュ再利用のための手法である。多くのLLMアプリケーションでは、複数のクエリに同じ検索されたドキュメントのように、異なる入力が重複するコンテキストを共有することができる。しかし、LLMはクエリ毎にコンテキスト全体をエンコードする必要があるため、冗長な計算に繋がる。本稿では,各文書のKVキャッシュを独立にプリ計算する,そのような非効率性を排除するための新しい手法を提案する。推論の間、取得したドキュメントのKVキャッシュは連結され、モデルが再計算する代わりにキャッシュされた表現を再利用できる。各文書に対して独立に計算されたKVキャッシュを使用する際のLCMの性能劣化を軽減するため、KVLinkでは、結合後のグローバルな位置と一致するようにKVキャッシュの位置埋め込みを調整すること、訓練可能な特別なトークンを使用して独立に符号化された文書間で自己注意を回復すること、モデルの本来の能力を保ちながらパフォーマンスを向上させるために混合データ微調整を適用すること、の3つの重要なコンポーネントを導入している。 7つのデータセットにわたる実験によると、KVLinkは最先端の手法よりも平均4%の精度で質問応答を改善する。さらに,事前に計算したKVキャッシュを利用することで,従来のLCM推論に比べて最大90%の時間対ファーストの処理時間を削減し,コンテキスト再利用のためのスケーラブルで効率的なソリューションとなる。

関連論文リスト

DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。 DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文参考訳（メタデータ） (2026-02-08T15:14:36Z)
SemShareKV: Efficient KVCache Sharing for Semantically Similar Prompts via Token-Level LSH Matching [0.8307668828380427]
大規模言語モデル(LLM)のためのKVキャッシュ共有圧縮フレームワークである textitSemShareKV を提案する。正確なトークンマッチに頼る代わりに、SemShareKVは、トークン埋め込みにローカリティ感受性ハッシュ(LSH)を使用してファジィトークンマッチングを適用し、位置情報をよりよく保存するためにロータリー位置埋め込み(Rotary Position Embedding、RoPE)を組み込んでいる。多様な要約データセットの実験では、最大6.25$times$スピードアップと42%低いGPUメモリ使用率で5kトークンが入力され、品質劣化は無視できる。
論文参考訳（メタデータ） (2025-09-29T14:16:13Z)
Sparse Attention across Multiple-context KV Cache [8.236266965773465]
推論効率を改善するために、履歴キーバリュー(KV)キャッシュを再利用することは、主流のアプローチとなっている。近年の進歩は、KVキャッシュを選択できるスパースアテンション機構によってスループットをさらに向上させる。本論文では,マルチコンテキストKVキャッシュにおける注意スペーシフィケーションの最初の調査であるSamKVについて述べる。
論文参考訳（メタデータ） (2025-08-06T02:53:14Z)
R-KV: Redundancy-aware KV Cache Compression for Reasoning Models [77.84539432982307]
共振モデル(R-KV)のための冗長性を考慮したKVキャッシュ圧縮を提案する。 R-KVはKVキャッシュの10%しか使用せず、完全なKVキャッシュ性能のほぼ100%を保っている。驚くべきことに、R-KVは完全なKVキャッシュ性能の105%を達成し、KVキャッシュの16%を達成している。
論文参考訳（メタデータ） (2025-05-30T02:03:24Z)
KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction [37.489744618357655]
トランスフォーマーベースの大規模言語モデル(LLM)は、推論中にキー値(KV)ペアとしてキャッシュコンテキストを持つ。コンテキストの長さが大きくなると、KVキャッシュのサイズが拡大し、メモリオーバーヘッドが大きくなり、注意の遅延が増大する。本稿では,クエリに依存しないKVキャッシュ消去手法であるKVzipを紹介する。
論文参考訳（メタデータ） (2025-05-29T13:05:47Z)
WindowKV: Task-Adaptive Group-Wise KV Cache Window Selection for Efficient LLM Inference [9.572076809796448]
タスク適応型KVキャッシュウィンドウ選択手法であるWindowKVを提案する。 WindowKVは、元のKVキャッシュの12%しか使用せず、完全なKVキャッシュ保持に匹敵する性能を維持していることを示す。提案手法は,Needle-in-a-Haystack評価における最先端の結果も達成し,その有効性と堅牢性を強調した。
論文参考訳（メタデータ） (2025-03-23T03:36:52Z)
KVShare: Semantic-Aware Key-Value Cache Sharing for Efficient Large Language Model Inference [7.894452711850396]
KVShareは、セマンティックな類似性に基づくマルチユーザキーバリュー(KV)キャッシュ共有技術である。 LLM(Large Language Models)とMLLM(Multimodal Large Language Models)の推論効率を向上させるように設計されている。
論文参考訳（メタデータ） (2025-03-17T16:43:35Z)
DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文参考訳（メタデータ） (2025-02-24T06:33:39Z)
SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文参考訳（メタデータ） (2024-12-13T17:59:52Z)
ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文参考訳（メタデータ） (2024-12-04T10:58:27Z)
KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文参考訳（メタデータ） (2024-10-24T08:06:41Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption [66.97998742151918]
大規模言語モデル(LLM)は、先進的な言語理解によって様々な産業に革命をもたらした。しかし、その効率性はTransformerアーキテクチャが長いテキストを扱うのに苦労していることに疑問を投げかけられている。 KVキャッシュは、トークン生成の時間的複雑さを2次から線形に変換する、重要なソリューションとして登場した。
論文参考訳（メタデータ） (2024-07-25T12:56:22Z)
Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文参考訳（メタデータ） (2024-07-11T12:50:42Z)
PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [53.08975547824068]
本研究では,大規模言語モデル(LLM)内の注意に基づく情報フローが,長期的文脈処理のための顕著なパターンによって集約されるかどうかを検討する。観測の結果,LLMは下層に広く注意が散らばっているピラミッド情報ファンリングを通じて情報を集約することがわかった。これらの知見に触発され、我々は新しい効率的なKVキャッシュ圧縮法であるPraamid KVを開発した。
論文参考訳（メタデータ） (2024-06-04T07:51:30Z)
CacheBlend: Fast Large Language Model Serving for RAG with Cached Knowledge Fusion [15.344568214955688]
大規模な言語モデル(LLM)は、必要なコンテキストを提供するために、入力に複数のテキストチャンクを組み込むことが多い。プリフィルを高速化するために、テキストのKVキャッシュをプリコンプリートし、コンテキストが別のLCM入力のプレフィックスとして再利用されるときにKVキャッシュを再使用することができる。我々は,プリコンパイルされたKVキャッシュをプレフィックスの有無にかかわらず再利用し,トークンの小さなサブセットのKV値を選択的に再計算し,再利用されたKVキャッシュを部分的に更新する方式であるCacheBlendを提案する。
論文参考訳（メタデータ） (2024-05-26T06:00:17Z)
Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文参考訳（メタデータ） (2024-02-14T18:54:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。