Fugu-MT 論文翻訳(概要): Cache Me If You Must: Adaptive Key-Value Quantization for Large Language Models

論文の概要: Cache Me If You Must: Adaptive Key-Value Quantization for Large Language Models

arxiv url: http://arxiv.org/abs/2501.19392v3
Date: Thu, 20 Feb 2025 16:01:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 15:38:29.509891
Title: Cache Me If You Must: Adaptive Key-Value Quantization for Large Language Models
Title（参考訳）: キャッシュもし必要ならば: 大規模言語モデルに対する適応的なキーバリュー量子化
Authors: Alina Shutova, Vladimir Malinovskii, Vage Egiazarian, Denis Kuznedelev, Denis Mazur, Nikita Surkov, Ivan Ermakov, Dan Alistarh,
Abstract要約: AQUA-KVは、コンパクトアダプタに依存するキーバリューキャッシュの適応量子化である。パープレキシティとLongBenchスコアの相対誤差を1%以下の値で2-2.5ビットで近似する。
参考スコア（独自算出の注目度）: 28.16603647353951
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Efficient real-world deployments of large language models (LLMs) rely on Key-Value (KV) caching for processing and generating long outputs, reducing the need for repetitive computation. For large contexts, Key-Value caches can take up tens of gigabytes of device memory, as they store vector representations for each token and layer. Recent work has shown that the cached vectors can be compressed through quantization, pruning or merging, but these techniques often compromise quality towards higher compression rates. In this work, we aim to improve Key & Value compression by exploiting two observations: 1) the inherent dependencies between keys and values across different layers, and 2) high-compression mechanisms for internal network states. We propose AQUA-KV, an adaptive quantization for Key-Value caches that relies on compact adapters to exploit existing dependencies between Keys and Values, and aims to "optimally" compress the information that cannot be predicted. AQUA-KV significantly improves compression rates, while maintaining high accuracy on state-of-the-art LLM families. On Llama 3.2 LLMs, we achieve near-lossless inference at 2-2.5 bits per value with under $1\%$ relative error in perplexity and LongBench scores. AQUA-KV is one-shot, simple, and efficient: it can be calibrated on a single GPU within 1-6 hours, even for 70B models.
Abstract（参考訳）: 大規模言語モデル(LLM)の効率的な実世界のデプロイは、キーバリュー(KV)キャッシングを使って長い出力を処理し、繰り返し計算する必要がない。大きなコンテキストでは、Key-Valueキャッシュが数十ギガバイトのデバイスメモリを取り込み、トークンとレイヤ毎にベクトル表現を格納する。最近の研究で、キャッシュされたベクトルは量子化、プルーニング、マージによって圧縮可能であることが示されているが、これらの技術は、しばしばより高い圧縮速度に向けて品質を損なう。本研究は,2つの観測結果を利用してキー&バリュー圧縮を改善することを目的としている。 1)異なる層にまたがるキーと値間の固有の依存関係 2)内部ネットワーク状態の高圧縮機構本稿では、キーと値間の既存の依存関係を利用するためのコンパクトアダプタに依存するキーバリューキャッシュの適応量子化であるAQUA-KVを提案し、予測できない情報を「最適に」圧縮することを目的とする。 Aqua-KVは圧縮速度を著しく改善し、最先端のLLMファミリーでは高い精度を維持している。 Llama 3.2 LLMでは, パープレキシティとLongBenchスコアの相対誤差を1\%以下で, 2-2.5ビット/値でほぼロスレスな推論を実現する。 Aqua-KVはワンショットでシンプルで効率的で、70Bモデルでも1～6時間で1つのGPUでキャリブレーションできる。

関連論文リスト

KV Cache Transform Coding for Compact Storage in LLM Inference [2.20003167536462]
KVTCは、KVキャッシュをコンパクトなオンGPUとオフGPUストレージに圧縮する軽量トランスフォーメーションコーダである。 KVキャッシュの冗長性を活用することで、KVTCは推論と長文の精度を維持しながら最大20$times$圧縮を達成する。我々は、AIME25、LiveCodeBench、GSM8K、MMLU、Qasper、RULER、MATH-500を含むベンチマークで、Llama 3、Mistral NeMo、R1-Qwen 2.5モデルでKVTCをテストする。
論文参考訳（メタデータ） (2025-11-03T18:20:35Z)
XQuant: Achieving Ultra-Low Bit KV Cache Quantization with Cross-Layer Compression [54.28208936996186]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる顕著な機能を示している。量子化は、歴史的情報を保持しながらメモリ消費を減らすための有望な解決策として現れてきた。超低等価ビット幅KVキャッシュ量子化を実現するトレーニングフリーでプラグアンドプレイのフレームワークであるXQuantを提案する。
論文参考訳（メタデータ） (2025-10-13T10:17:21Z)
ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。近年,KVキャッシュの隠蔽次元の低減について検討されている。本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文参考訳（メタデータ） (2025-05-30T08:49:27Z)
SVDq: 1.25-bit and 410x Key Cache Compression for LLM Attention [0.0]
KVキャッシュ圧縮技術の主な3つのタイプ、すなわちスパシティ、チャネル圧縮、量子化が同定された。本研究は,Kキャッシュの混合精度定量化法であるSVDqを提案する。
論文参考訳（メタデータ） (2025-02-21T08:55:21Z)
Quantize What Counts: More for Keys, Less for Values [63.51476878610841]
大規模言語モデル(LLM)は、キーバリュー(KV)キャッシュに支配される推論時のメモリボトルネックに悩まされる。本稿ではトランスフォーマーモデルの内在幾何学における混合精度KV量子化を固定する2つの定理を提案する。
論文参考訳（メタデータ） (2025-02-20T22:24:27Z)
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文参考訳（メタデータ） (2025-02-05T20:43:48Z)
ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文参考訳（メタデータ） (2024-12-04T10:58:27Z)
KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文参考訳（メタデータ） (2024-10-24T08:06:41Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
MiniCache: KV Cache Compression in Depth Dimension for Large Language Models [48.03117580340151]
キーバリュー(KV)キャッシュは、以前に生成されたトークンのキー値状態を格納する。 KVキャッシュのサイズはシーケンス長とともに線形に増加し、長いコンテキスト入力と広範囲なシーケンス生成を必要とするアプリケーションの課題を提起する。レイヤ間のKVキャッシュを,新しい奥行きの観点から圧縮する,MiniCacheという,シンプルで効果的なアプローチを提案する。
論文参考訳（メタデータ） (2024-05-23T09:43:52Z)
KV Cache is 1 Bit Per Channel: Efficient Large Language Model Inference with Coupled Quantization [34.824534775022144]
KVキャッシュ圧縮の手法として結合量子化(CQ)を提案する。 CQは複数のキー/バリューチャネルを結合して、その依存性を利用して、より情報効率の良い方法でアクティベーションをエンコードする。我々は,KVキャッシュを1ビットまで量子化することで,CQがモデル品質を維持できることを実証した。
論文参考訳（メタデータ） (2024-05-07T00:25:20Z)
KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。 KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文参考訳（メタデータ） (2024-02-05T06:06:47Z)
KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文参考訳（メタデータ） (2024-01-31T18:58:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。