論文の概要: More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression
- arxiv url: http://arxiv.org/abs/2412.12706v1
- Date: Tue, 17 Dec 2024 09:20:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:59:31.993683
- Title: More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression
- Title(参考訳): より多くのトークンと低い精度:KVキャッシュ圧縮における最適トークン精度トレードオフに向けて
- Authors: Jiebin Zhang, Dawei Zhu, Yifan Song, Wenhao Wu, Chuqiao Kuang, Xiaoguang Li, Lifeng Shang, Qun Liu, Sujian Li,
- Abstract要約: KVプルーニングやKV量子化を含むKV圧縮法は、トークンまたは精度寸法に重点を置いている。
量子化プルーニング(quantized pruning)により,KVキャッシュにより多くのトークンを格納することで,LLMの長文性能を大幅に向上させることができることを示す。
- 参考スコア(独自算出の注目度): 71.42818367729573
- License:
- Abstract: As large language models (LLMs) process increasing context windows, the memory usage of KV cache has become a critical bottleneck during inference. The mainstream KV compression methods, including KV pruning and KV quantization, primarily focus on either token or precision dimension and seldom explore the efficiency of their combination. In this paper, we comprehensively investigate the token-precision trade-off in KV cache compression. Experiments demonstrate that storing more tokens in the KV cache with lower precision, i.e., quantized pruning, can significantly enhance the long-context performance of LLMs. Furthermore, in-depth analysis regarding token-precision trade-off from a series of key aspects exhibit that, quantized pruning achieves substantial improvements in retrieval-related tasks and consistently performs well across varying input lengths. Moreover, quantized pruning demonstrates notable stability across different KV pruning methods, quantization strategies, and model scales. These findings provide valuable insights into the token-precision trade-off in KV cache compression. We plan to release our code in the near future.
- Abstract(参考訳): 大規模言語モデル(LLM)プロセスがコンテキストウィンドウを増大させるにつれ、KVキャッシュのメモリ使用量は、推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法に焦点を当て、それらの組み合わせの効率をめったに調査しない。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
実験により、量子化プルーニング(quantized pruning)という低精度のKVキャッシュにより多くのトークンを格納することで、LLMの長文性能を大幅に向上できることが示された。
さらに、一連の重要な側面からのトークン-精度トレードオフに関する詳細な分析により、量子化プルーニングは検索関連タスクを大幅に改善し、入力長の変動に対して一貫して良好に動作することを示す。
さらに、量子化プルーニングは、異なるKVプルーニング法、量子化戦略、モデルスケールにまたがる顕著な安定性を示す。
これらの結果は、KVキャッシュ圧縮におけるトークン精度トレードオフに関する貴重な洞察を与える。
近い将来、コードをリリースする予定です。
関連論文リスト
- BalanceKV: KV Cache Compression through Discrepancy Theory [11.235024582188288]
大規模言語モデル(LLM)は目覚ましい成功を収めたが、その高いメモリ要件は、長文トークン生成の課題である。
本稿では,Banaszczykのベクトルバランス理論に基づく幾何サンプリングプロセスに基づくKVキャッシュ圧縮手法であるBa balanceKVを提案する。
論文 参考訳(メタデータ) (2025-02-11T17:18:17Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。
ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - A Simple and Effective $L_2$ Norm-Based Strategy for KV Cache Compression [13.981807478365452]
キーバリューキャッシュサイズを減らすための既存のアプローチは、圧縮戦略を学ぶためのモデルを微調整するか、シーケンス長を減らすためにアテンションスコアを利用するかのいずれかである。
キャッシュされたKVペアに対して、$L$とアテンションスコアとの間に明らかな相関関係が見られ、キー埋め込みの低い$L$がデコード時に高いアテンションスコアをもたらす。
実験の結果,この単純な手法により,言語モデリングやニードル・イン・ア・ヘイスタックタスクでは50%,パスキー検索タスクでは90%,精度を損なうことなく,KVキャッシュサイズを50%削減できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T11:35:16Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [53.08975547824068]
本研究では,大規模言語モデル(LLM)内の注意に基づく情報フローが,長期的文脈処理のための顕著なパターンによって集約されるかどうかを検討する。
観測の結果,LLMは下層に広く注意が散らばっているピラミッド情報ファンリングを通じて情報を集約することがわかった。
これらの知見に触発され、我々は新しい効率的なKVキャッシュ圧縮法であるPraamid KVを開発した。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - QAQ: Quality Adaptive Quantization for LLM KV Cache [3.163526369095745]
モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。
KVキャッシュのための品質適応量子化スキームQAQを提案する。
論文 参考訳(メタデータ) (2024-03-07T16:42:37Z) - No Token Left Behind: Reliable KV Cache Compression via Importance-Aware
Mixed Precision Quantization [31.806112535762367]
キーバリューキャッシングは、生成型大規模言語モデル(LLM)の推論速度とスループットを加速する重要な技術となっている。
論文 参考訳(メタデータ) (2024-02-28T06:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。