Fugu-MT 論文翻訳(概要): More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression

論文の概要: More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression

arxiv url: http://arxiv.org/abs/2412.12706v2
Date: Thu, 20 Feb 2025 12:14:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 15:38:29.483835
Title: More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression
Title（参考訳）: より多くのトークンと低い精度:KVキャッシュ圧縮における最適トークン精度トレードオフに向けて
Authors: Jiebin Zhang, Dawei Zhu, Yifan Song, Wenhao Wu, Chuqiao Kuang, Xiaoguang Li, Lifeng Shang, Qun Liu, Sujian Li,
Abstract要約: 大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。 KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
参考スコア（独自算出の注目度）: 71.42818367729573
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As large language models (LLMs) process increasing context windows, the memory usage of KV cache has become a critical bottleneck during inference. The mainstream KV compression methods, including KV pruning and KV quantization, primarily focus on either token or precision dimension separately. However, these works leaving the trade-off between these two orthogonal dimensions largely under-explored. In this paper, we comprehensively investigate the token-precision trade-off in KV cache compression.Experiments demonstrate that storing more tokens in the KV cache with lower precision,a strategy we term quantized pruning, can significantly enhance the long-context performance of LLMs. In-depth analysis of the token-precision trade-off across key aspects demonstrates that, quantized pruning achieves substantial improvements in retrieval-related tasks and consistently performs well across varying input lengths. Furthermore, quantized pruning demonstrates notable stability and effectiveness across different KV pruning methods, quantization strategies, and model scales. These findings offer valuable insights into optimizing KV cache compression through balanced token-precision trade-off strategies. Our code is available at https://github.com/zhzihao/QPruningKV.
Abstract（参考訳）: 大規模言語モデル(LLM)プロセスがコンテキストウィンドウを増大させるにつれ、KVキャッシュのメモリ使用量は、推論において重大なボトルネックとなっている。 KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。しかし、これらの作業はこれらの2つの直交次元間のトレードオフをほとんど未探索のまま残している。本稿では,KVキャッシュ圧縮におけるトークン-精度トレードオフを包括的に検討し,より少ない精度でKVキャッシュにより多くのトークンを格納できることを実証した。鍵面間のトークン精度トレードオフの詳細な分析は、量子化プルーニングが検索関連タスクの大幅な改善を実現し、様々な入力長にわたって一貫して良好に動作することを示す。さらに、量子化プルーニングは、異なるKVプルーニング法、量子化戦略、モデルスケールにおける顕著な安定性と有効性を示す。これらの発見は、バランスの取れたトークン精度トレードオフ戦略によるKVキャッシュ圧縮の最適化に関する貴重な洞察を提供する。私たちのコードはhttps://github.com/zhzihao/QPruningKV.comで公開されています。

関連論文リスト

CommonKV: Compressing KV Cache with Cross-layer Parameter Sharing [54.34080239841088]
CommonKVは、隣接パラメータ共有による層間KVキャッシュ圧縮のトレーニング不要な方法である。提案手法は,様々な圧縮比で既存の低ランクおよびクロスレイヤーの手法より一貫して優れていることを示す。
論文参考訳（メタデータ） (2025-08-22T06:55:45Z)
KVSink: Understanding and Enhancing the Preservation of Attention Sinks in KV Cache Quantization for LLMs [0.0]
キーバリュー(KV)キャッシュ量子化は,大規模言語モデル(LLM)推論において広く採用されている最適化手法である。近年の研究は、注意シンクの保護を確保するために、最初の数個のトークンに対してKVの本来の精度を維持することの重要性を強調している。我々は,シンクトークンを無視できるオーバーヘッドで効果的に予測するプラグイン・アンド・プレイ方式であるtextittextbf KVSinkを紹介した。
論文参考訳（メタデータ） (2025-08-06T09:40:09Z)
TaDA: Training-free recipe for Decoding with Adaptive KV Cache Compression and Mean-centering [10.427881558469442]
量子化精度の高いKVキャッシュ圧縮のためのトレーニング不要なレシピであるTaDAを紹介する。提案手法は,様々なコンテキスト長をサポートする複数のモデルに対して,大幅な精度向上を実現する。本手法は,言語モデルにおけるスケーラブルで高性能な推論手法である。
論文参考訳（メタデータ） (2025-06-05T05:23:38Z)
ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。近年,KVキャッシュの隠蔽次元の低減について検討されている。本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文参考訳（メタデータ） (2025-05-30T08:49:27Z)
KVmix: Gradient-Based Layer Importance-Aware Mixed-Precision Quantization for KV Cache [13.662270631753135]
量子化は、KVキャッシュによって引き起こされるメモリ圧力を効果的に軽減することができる。 KVmix と呼ばれる KV キャッシュのための新しい混合精度量子化法を提案する。
論文参考訳（メタデータ） (2025-05-18T07:04:53Z)
DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文参考訳（メタデータ） (2025-02-24T06:33:39Z)
KVCrush: Key value cache size-reduction using similarity in head-behaviour [40.792661186062396]
大規模言語モデル(LLM)における推論を高速化する重要な最適化手法としてキーバリューキャッシュ(KV)が登場している。しかしながら、KVのメモリフットプリントは、モデルのバッチサイズに直接影響を与えるモデルデプロイメントにおいて、大きなボトルネックとなります。我々は,KVCrushと多くのKV圧縮技術を組み合わせることで,より小さなメモリでモデル精度を向上させることを提案する。
論文参考訳（メタデータ） (2025-02-24T02:57:51Z)
BalanceKV: KV Cache Compression through Discrepancy Theory [11.235024582188288]
大規模言語モデル(LLM)は目覚ましい成功を収めたが、その高いメモリ要件は、長文トークン生成の課題である。本稿では,Banaszczykのベクトルバランス理論に基づく幾何サンプリングプロセスに基づくKVキャッシュ圧縮手法であるBa balanceKVを提案する。
論文参考訳（メタデータ） (2025-02-11T17:18:17Z)
PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。本手法は他の手法と比較して最先端の性能を実現する。
論文参考訳（メタデータ） (2024-12-04T15:48:59Z)
ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文参考訳（メタデータ） (2024-12-04T10:58:27Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
A Simple and Effective $L_2$ Norm-Based Strategy for KV Cache Compression [13.981807478365452]
キーバリューキャッシュサイズを減らすための既存のアプローチは、圧縮戦略を学ぶためのモデルを微調整するか、シーケンス長を減らすためにアテンションスコアを利用するかのいずれかである。キャッシュされたKVペアに対して、$L$とアテンションスコアとの間に明らかな相関関係が見られ、キー埋め込みの低い$L$がデコード時に高いアテンションスコアをもたらす。実験の結果,この単純な手法により,言語モデリングやニードル・イン・ア・ヘイスタックタスクでは50%,パスキー検索タスクでは90%,精度を損なうことなく,KVキャッシュサイズを50%削減できることがわかった。
論文参考訳（メタデータ） (2024-06-17T11:35:16Z)
PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [53.08975547824068]
本研究では,大規模言語モデル(LLM)内の注意に基づく情報フローが,長期的文脈処理のための顕著なパターンによって集約されるかどうかを検討する。観測の結果,LLMは下層に広く注意が散らばっているピラミッド情報ファンリングを通じて情報を集約することがわかった。これらの知見に触発され、我々は新しい効率的なKVキャッシュ圧縮法であるPraamid KVを開発した。
論文参考訳（メタデータ） (2024-06-04T07:51:30Z)
Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文参考訳（メタデータ） (2024-05-21T08:35:10Z)
SKVQ: Sliding-window Key and Value Cache Quantization for Large Language Models [43.22490117833939]
SKVQはスライディングウインドウKVキャッシュ量子化の略である。 SKVQは、量子化グループにおけるチャネルの類似性を改善するために、KVキャッシュのチャネルを再構成する。 7bモデルで80GBのメモリGPU上で最大1Mのコンテキスト長を処理でき、最大7倍高速な復号を行うことができる。
論文参考訳（メタデータ） (2024-05-10T03:06:24Z)
QAQ: Quality Adaptive Quantization for LLM KV Cache [3.163526369095745]
モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。 KVキャッシュのための品質適応量子化スキームQAQを提案する。
論文参考訳（メタデータ） (2024-03-07T16:42:37Z)
No Token Left Behind: Reliable KV Cache Compression via Importance-Aware Mixed Precision Quantization [31.806112535762367]
キーバリューキャッシングは、生成型大規模言語モデル(LLM)の推論速度とスループットを加速する重要な技術となっている。
論文参考訳（メタデータ） (2024-02-28T06:34:54Z)
KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。 KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文参考訳（メタデータ） (2024-02-05T06:06:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。