Fugu-MT 論文翻訳(概要): Can LLMs Maintain Fundamental Abilities under KV Cache Compression?

論文の概要: Can LLMs Maintain Fundamental Abilities under KV Cache Compression?

arxiv url: http://arxiv.org/abs/2502.01941v1
Date: Tue, 04 Feb 2025 02:23:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:55.809817
Title: Can LLMs Maintain Fundamental Abilities under KV Cache Compression?
Title（参考訳）: LLMはKVキャッシュ圧縮の下で基本能力を維持することができるか?
Authors: Xiang Liu, Zhenheng Tang, Hong Chen, Peijie Dong, Zeyu Li, Xiuze Zhou, Bo Li, Xuming Hu, Xiaowen Chu,
Abstract要約: 我々は,KVキャッシュ圧縮手法を,世界知識,コモンセンス推論,算術推論,コード生成,安全性,長文理解・生成など多種多様なタスクにわたって評価する。解析の結果,KVキャッシュ圧縮手法はタスク固有の性能劣化を示すことがわかった。ショットレベルのセマンティックコヒーレンスを維持しつつ、プリフィルとデコードフェーズを明確に扱う新しい圧縮手法ShotKVを提案する。
参考スコア（独自算出の注目度）: 29.510433427184385
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper investigates an under-explored challenge in large language models (LLMs): the impact of KV cache compression methods on LLMs' fundamental capabilities. While existing methods achieve impressive compression ratios on long-context benchmarks, their effects on core model capabilities remain understudied. We present a comprehensive empirical study evaluating prominent KV cache compression methods across diverse tasks, spanning world knowledge, commonsense reasoning, arithmetic reasoning, code generation, safety, and long-context understanding and generation.Our analysis reveals that KV cache compression methods exhibit task-specific performance degradation. Arithmetic reasoning tasks prove particularly sensitive to aggressive compression, with different methods showing performance drops of $17.4\%$-$43.3\%$. Notably, the DeepSeek R1 Distill model exhibits more robust compression tolerance compared to instruction-tuned models, showing only $9.67\%$-$25.53\%$ performance degradation. Based on our analysis of attention patterns and cross-task compression performance, we propose ShotKV, a novel compression approach that distinctly handles prefill and decoding phases while maintaining shot-level semantic coherence. Empirical results show that ShotKV achieves $9\%$-$18\%$ performance improvements on long-context generation tasks under aggressive compression ratios.
Abstract（参考訳）: 本稿では,LLMの基本機能に対するKVキャッシュ圧縮手法の影響について検討する。従来の手法では長文ベンチマークでは印象的な圧縮比が達成されているが,コアモデルの性能への影響はいまだ検討されていない。我々は,KVキャッシュ圧縮手法がタスク固有の性能劣化を示すことを示すとともに,世界的知識,コモンセンス推論,算術推論,コード生成,安全性,長期コンテキスト理解・生成など多岐にわたるKVキャッシュ圧縮手法を総合的に評価した。算術的推論タスクは、攻撃的な圧縮に対して特に敏感であり、異なる手法では17.4\%=-43.3\%$のパフォーマンス低下を示す。特筆すべきは、DeepSeek R1 Distillモデルは、命令調整されたモデルと比較して、より堅牢な圧縮耐性を示し、わずか9.67\%$-25.53\%$パフォーマンス劣化を示したことである。注意パターンの解析とクロスタスク圧縮性能に基づいて、ショットレベルのセマンティックコヒーレンスを維持しつつ、プリフィルとデコードフェーズを明確に扱う新しい圧縮手法ShotKVを提案する。実験結果から,ShotKVはアグレッシブ圧縮比下での長文生成タスクの性能改善を9\%$-18\%$で達成していることがわかった。

関連論文リスト

KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文参考訳（メタデータ） (2025-07-15T12:52:12Z)
Homogeneous Keys, Heterogeneous Values: Exploiting Local KV Cache Asymmetry for Long-Context LLMs [27.710036447385697]
我々は、KVキャッシュにおいて、基本的かつ以前見過ごされた非対称性を示す。隣接するキーは類似の注意重み(局所的均一性)を受けるが、隣接する値は異なる異種分布を示す。このキー値非対称性は、キーと値を一様に扱う既存の圧縮方法に限界があることを示している。
論文参考訳（メタデータ） (2025-06-04T16:10:44Z)
ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。近年,KVキャッシュの隠蔽次元の低減について検討されている。本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文参考訳（メタデータ） (2025-05-30T08:49:27Z)
Key, Value, Compress: A Systematic Exploration of KV Cache Compression Techniques [14.69396650781309]
大規模言語モデル(LLM)は、テキスト、画像、ビデオコンテンツを生成する際、例外的な能力を示した。文脈長が大きくなるにつれて、トークンの数が増えるにつれて、注意の計算コストは2次的に増加する。本稿では,キーバリュー(KV)キャッシュ圧縮戦略の解析を行う。
論文参考訳（メタデータ） (2025-03-14T19:02:16Z)
KV-Distill: Nearly Lossless Learnable Context Compression for LLMs [37.0803484148612]
我々は、長いコンテキストKVキャッシュをはるかに短い表現に蒸留するTransformer圧縮フレームワークであるKV-Distillを紹介する。 KV-Distillは、事前訓練されたモデルに対するパラメータ効率の良い適応器として訓練することができる。ドメイン固有のコンテキストを微調整することで、下流のパフォーマンスを維持しながら、最大99%の長さを削減できる。
論文参考訳（メタデータ） (2025-03-13T13:15:28Z)
DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文参考訳（メタデータ） (2025-02-24T06:33:39Z)
Compression-Aware One-Step Diffusion Model for JPEG Artifact Removal [56.307484956135355]
CODiffはJPEGアーティファクト削除のための圧縮対応ワンステップ拡散モデルである。明示的な学習と暗黙的な学習を組み合わせた二重学習戦略を提案する。その結果,CODiffは定量的および視覚的品質指標の両方において,最近の先行手法を超越していることがわかった。
論文参考訳（メタデータ） (2025-02-14T02:46:27Z)
ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [24.48498639513474]
基本圧縮単位としてチャンク内のトークンをグループ化してチャンクKVを導入する。 ChunkKVは異なる層にまたがって保存された指標に高い類似性を示す。我々は,LongBench や Needle-In-A-HayStack,GSM8K や JailbreakV など,最先端の長文ベンチマークに対する ChunkKV の評価を行った。
論文参考訳（メタデータ） (2025-02-01T03:49:47Z)
More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。 KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文参考訳（メタデータ） (2024-12-17T09:20:31Z)
SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文参考訳（メタデータ） (2024-12-13T17:59:52Z)
KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文参考訳（メタデータ） (2024-10-24T08:06:41Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
CSKV: Training-Efficient Channel Shrinking for KV Cache in Long-Context Scenarios [13.144156413032896]
KVキャッシュ圧縮のための訓練効率の高いチャネルシンキング技術であるCSKVを紹介する。 CSKVは、モデル長文機能を維持しながら、KVキャッシュのメモリオーバーヘッドを80%削減できることを示す。我々の手法は量子化とシームレスに組み合わせることでメモリオーバーヘッドをさらに低減し、最大95%の圧縮比を達成することができる。
論文参考訳（メタデータ） (2024-09-16T17:36:50Z)
PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [53.08975547824068]
本研究では,大規模言語モデル(LLM)内の注意に基づく情報フローが,長期的文脈処理のための顕著なパターンによって集約されるかどうかを検討する。観測の結果,LLMは下層に広く注意が散らばっているピラミッド情報ファンリングを通じて情報を集約することがわかった。これらの知見に触発され、我々は新しい効率的なKVキャッシュ圧縮法であるPraamid KVを開発した。
論文参考訳（メタデータ） (2024-06-04T07:51:30Z)
Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文参考訳（メタデータ） (2024-01-15T15:54:54Z)
What do Compressed Large Language Models Forget? Robustness Challenges in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文参考訳（メタデータ） (2021-10-16T00:20:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。