Fugu-MT 論文翻訳(概要): Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs

論文の概要: Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs

arxiv url: http://arxiv.org/abs/2503.00979v1
Date: Sun, 02 Mar 2025 18:12:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:37.715643
Title: Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs
Title（参考訳）: 制限のない対話: LLMにおける拡張応答のための定サイズKVキャッシュ
Authors: Ravi Ghadia, Avinash Kumar, Gaurav Jain, Prashant Nair, Poulami Das,
Abstract要約: 精度を保ちながら一定サイズのKVキャッシュを維持する推論時間手法であるMorphKVを提案する。保持や損失圧縮とは異なり、MorphKVは最近のトークンの注意パターンによってガイドされる軽量更新を通じてKVキャッシュを反復的に洗練する。我々の研究では、52.9$%のメモリセーブと18.2$%の精度が、最先端の先行研究と比較して高いことを示している。
参考スコア（独自算出の注目度）: 6.222287867011644
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Autoregressive Transformers rely on Key-Value (KV) caching to accelerate inference. However, the linear growth of the KV cache with context length leads to excessive memory consumption and bandwidth constraints. This bottleneck is particularly problematic in real-time applications -- such as chatbots and interactive assistants -- where low latency and high memory efficiency are critical. Existing methods drop distant tokens or compress states in a lossy manner, sacrificing accuracy by discarding vital context or introducing bias. We propose MorphKV, an inference-time technique that maintains a constant-sized KV cache while preserving accuracy. MorphKV balances long-range dependencies and local coherence during text generation. It eliminates early-token bias while retaining high-fidelity context by adaptively ranking tokens through correlation-aware selection. Unlike heuristic retention or lossy compression, MorphKV iteratively refines the KV cache via lightweight updates guided by attention patterns of recent tokens. This approach captures inter-token correlation with greater accuracy, crucial for tasks like content creation and code generation. Our studies on long-response tasks show 52.9$\%$ memory savings and 18.2$\%$ higher accuracy on average compared to state-of-the-art prior works, enabling efficient real-world deployment.
Abstract（参考訳）: 自動回帰変換器は推論を高速化するためにキーバリュー(KV)キャッシュに依存している。しかし、コンテキスト長のKVキャッシュの線形成長は、過剰なメモリ消費と帯域幅の制約をもたらす。このボトルネックは、低レイテンシと高メモリ効率が不可欠であるリアルタイムアプリケーション(チャットボットや対話型アシスタントなど)において特に問題となる。既存の方法では、遠くのトークンや圧縮状態が失われ、重要なコンテキストを捨てたりバイアスを発生させることで精度を犠牲にする。精度を保ちながら一定サイズのKVキャッシュを維持する推論時間手法であるMorphKVを提案する。 MorphKVはテキスト生成時の長距離依存関係と局所コヒーレンスをバランスさせる。相関認識の選択を通じてトークンを適応的にランク付けすることで、高忠実度コンテキストを維持しながら早期にバイアスを取り除く。ヒューリスティックな保持や損失圧縮とは異なり、MorphKVは最近のトークンの注意パターンによってガイドされる軽量な更新を通じてKVキャッシュを反復的に洗練する。このアプローチは、コンテンツ生成やコード生成といったタスクに不可欠な、より高い精度で、トークン間の相関をキャプチャする。長時間応答タスクに関する我々の研究では、52.9$\%のメモリセーブと18.2$\%の精度が、最先端の作業よりも高いことを示し、効率的な実世界のデプロイを可能にした。

関連論文リスト

ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。近年,KVキャッシュの隠蔽次元の低減について検討されている。本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文参考訳（メタデータ） (2025-05-30T08:49:27Z)
TailorKV: A Hybrid Framework for Long-Context Inference via Tailored KV Cache Optimization [21.229296254354878]
生成型大規模言語モデル(LLM)におけるキーバリューキャッシュは、かなりのメモリオーバーヘッドをもたらす。既存の作業は、KVキャッシュをオフロードまたは圧縮することで、この負担を軽減する。本稿では,量子化とオフロードをシームレスに統合するハイブリッド圧縮手法であるTailorKVを提案する。
論文参考訳（メタデータ） (2025-05-26T07:00:04Z)
SentenceKV: Efficient LLM Inference via Sentence-Level Semantic KV Caching [9.617322424513317]
SentenceKVは、セマンティックコヒーレンスを保持しながら推論効率を向上させるために設計された、新しいKVキャッシュアプローチである。本研究では,SentenceKVがモデル精度を損なうことなく,効率とメモリ使用量の両方において最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-01T17:08:57Z)
KV-Distill: Nearly Lossless Learnable Context Compression for LLMs [37.0803484148612]
我々は、長いコンテキストKVキャッシュをはるかに短い表現に蒸留するTransformer圧縮フレームワークであるKV-Distillを紹介する。 KV-Distillは、事前訓練されたモデルに対するパラメータ効率の良い適応器として訓練することができる。ドメイン固有のコンテキストを微調整することで、下流のパフォーマンスを維持しながら、最大99%の長さを削減できる。
論文参考訳（メタデータ） (2025-03-13T13:15:28Z)
LLMs Know What to Drop: Self-Attention Guided KV Cache Eviction for Efficient Long-Context Inference [16.83202690345235]
長文推論のための単純かつ効果的なKV消去キャッシュ手法であるSelf-Attention Guided Eviction(SAGE-KV)を提案する。プリフィル後,KVキャッシュを圧縮するためにトークンとヘッドの両方で1回のトップk選択を行う。 SAGE-KV は静的 KV キャッシュ選択法 StreamLLM よりも精度が向上し,動的 KV キャッシュ選択法 Quest よりも精度が良く,メモリ効率が 4 倍向上する。
論文参考訳（メタデータ） (2025-03-11T20:45:02Z)
DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文参考訳（メタデータ） (2025-02-24T06:33:39Z)
FastKV: KV Cache Compression for Fast Long-Context Processing with Token-Selective Propagation [4.856070170902535]
大きな言語モデル(LLM)は、長いコンテキストシーケンスを扱うのに優れている。コンテキスト情報を格納するために、かなりのキーバリュー(KV)キャッシュが必要である。 FastKVは、長いコンテキストシーケンスのレイテンシを高めるために設計されたKVキャッシュ圧縮方式である。
論文参考訳（メタデータ） (2025-02-03T05:25:09Z)
ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [28.96662510838151]
セマンティックチャンクを基本圧縮単位として扱うことにより,KVキャッシュの圧縮を再現するChunkKVを提案する。このアプローチは完全な言語構造と文脈整合性を保持し、攻撃的な圧縮の下でも本質的な意味が維持されることを保証する。 ChunkKVは、同じ圧縮比を維持しながら8.7%の精度で最先端の手法より優れている。
論文参考訳（メタデータ） (2025-02-01T03:49:47Z)
More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。 KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文参考訳（メタデータ） (2024-12-17T09:20:31Z)
ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文参考訳（メタデータ） (2024-12-04T10:58:27Z)
Compressing KV Cache for Long-Context LLM Inference with Inter-Layer Attention Similarity [24.118503938098307]
textscPoDはトークンの重要度に応じてメモリを割り当てる。 textscPoDは、パフォーマンスを損なうことなく、KVキャッシュメモリ使用量を最大35%削減する。
論文参考訳（メタデータ） (2024-12-03T08:29:27Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文参考訳（メタデータ） (2023-10-03T05:17:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。