Fugu-MT 論文翻訳(概要): A$^2$ATS: Retrieval-Based KV Cache Reduction via Windowed Rotary Position Embedding and Query-Aware Vector Quantization

論文の概要: A$^2$ATS: Retrieval-Based KV Cache Reduction via Windowed Rotary Position Embedding and Query-Aware Vector Quantization

arxiv url: http://arxiv.org/abs/2502.12665v1
Date: Tue, 18 Feb 2025 09:11:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 20:12:08.87922
Title: A$^2$ATS: Retrieval-Based KV Cache Reduction via Windowed Rotary Position Embedding and Query-Aware Vector Quantization
Title（参考訳）: A$^2$ATS:ウィンドウ付き回転位置埋め込みとクエリ対応ベクトル量子化による検索型KVキャッシュの削減
Authors: Junhui He, Junna Xing, Nan Wang, Rui Xu, Shangyu Wu, Peng Zhou, Qiang Liu, Chun Jason Xue, Qingan Li,
Abstract要約: ロングコンテキストの大規模言語モデル(LLM)は、メモリフットプリントが大きく、KVキャッシュのアクセスオーバーヘッドが大きいため、効率的なサービスを実現する上で大きな課題となる。検索ベースのKVキャッシュ削減手法は、一般的に完全なKVキャッシュをCPUにオフロードし、推論時に必要なトークンを取得することで、これらの課題を軽減することができる。本稿では,新しい検索方式KVキャッシュ削減手法であるA$2$ATSを提案する。
参考スコア（独自算出の注目度）: 17.342214950859145
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Long context large language models (LLMs) pose significant challenges for efficient serving due to the large memory footprint and high access overhead of KV cache. Retrieval-based KV cache reduction methods can mitigate these challenges, typically by offloading the complete KV cache to CPU and retrieving necessary tokens on demand during inference. However, these methods still suffer from unsatisfactory accuracy degradation and extra retrieval overhead. To address these limitations, this paper proposes A$^2$ATS, a novel retrieval-based KV cache reduction method. A$^2$ATS aims to obtain an accurate approximation of attention scores by applying the vector quantization technique to key states, thereby enabling efficient and precise retrieval of the top-K tokens. First, we propose Windowed Rotary Position Embedding, which decouples the positional dependency from query and key states after position embedding. Then, we propose query-aware vector quantization that optimizes the objective of attention score approximation directly. Finally, we design the heterogeneous inference architecture for KV cache offloading, enabling long context serving with larger batch sizes. Experimental results demonstrate that A$^2$ATS can achieve a lower performance degradation with similar or lower overhead compared to existing methods, thereby increasing long context serving throughput by up to $2.7 \times$.
Abstract（参考訳）: ロングコンテキストの大規模言語モデル(LLM)は、メモリフットプリントが大きく、KVキャッシュのアクセスオーバーヘッドが大きいため、効率的なサービスを実現する上で大きな課題となる。検索ベースのKVキャッシュ削減手法は、一般的に完全なKVキャッシュをCPUにオフロードし、推論時に必要なトークンを取得することで、これらの課題を軽減することができる。しかし、これらの手法は依然として不満足な精度の劣化と余分な検索オーバーヘッドに悩まされている。そこで本研究では,新しい検索方式KVキャッシュ削減手法であるA$^2$ATSを提案する。 A$^2$ATSは、ベクトル量子化法をキー状態に適用することにより、注目スコアの正確な近似を得ることを目的としており、これにより、トップKトークンの効率的かつ正確な検索を可能にする。まず、位置埋め込み後のクエリとキー状態から位置依存を分離するウィンドウ付き回転位置埋め込みを提案する。そこで本研究では,アテンションスコア近似の目的を直接最適化するクエリ対応ベクトル量子化を提案する。最後に,KVキャッシュオフロードのためのヘテロジニアス推論アーキテクチャを設計し,バッチサイズを大きくした長いコンテキストを実現する。実験の結果、A$^2$ATSは既存の手法と同等または低いオーバーヘッドで性能の低下を達成でき、これにより、長いコンテクストサービススループットを最大2.7 \times$まで向上させることができることがわかった。

関連論文リスト

Lookahead Q-Cache: Achieving More Consistent KV Cache Eviction via Pseudo Query [48.52389201779425]
KVキャッシュメモリの使用は、長いテキストシーケンスで大幅に増加する。プリフィルステージアテンションスコアを用いた既存のKVキャッシュ消去手法Pruneトークン Lookahead Q-Cacheは、真のデコードステージクエリをよりよく近似するために、低コストの疑似ルックアヘッドクエリを生成する。
論文参考訳（メタデータ） (2025-05-24T10:34:38Z)
Progressive Sparse Attention: Algorithm and System Co-design for Efficient Attention in LLM Serving [10.835583587146274]
本稿では,$underlineP$rogressive $underlineS$parse $underlineA$ttentionメカニズムを提案する。アルゴリズムの革新とシステムの共同設計を統合し、大規模言語モデルにおいて高い推論精度と効率性の両方を達成する。実験によると、PSAは注意計算のKVキャッシュ使用量を2.4$times$と8.8$times$に削減し、エンドツーエンドのサービススループットを1.4$times$と2.0$times$に向上する。
論文参考訳（メタデータ） (2025-03-01T07:56:42Z)
DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文参考訳（メタデータ） (2025-02-24T06:33:39Z)
KVCrush: Key value cache size-reduction using similarity in head-behaviour [40.792661186062396]
大規模言語モデル(LLM)における推論を高速化する重要な最適化手法としてキーバリューキャッシュ(KV)が登場している。しかしながら、KVのメモリフットプリントは、モデルのバッチサイズに直接影響を与えるモデルデプロイメントにおいて、大きなボトルネックとなります。我々は,KVCrushと多くのKV圧縮技術を組み合わせることで,より小さなメモリでモデル精度を向上させることを提案する。
論文参考訳（メタデータ） (2025-02-24T02:57:51Z)
Activation-aware Probe-Query: Effective Key-Value Retrieval for Long-Context LLMs Inference [56.71209737306054]
我々は,プローブ-textbfQuery を動的に決定し,関連する textbfKV ペアを推論するために利用する,トレーニングフリーの textbfActivation-aware アプローチである textbfActQKV を提案する。 Long-Bench と $infty$ Benchmarks の実験では、競合する推論品質とリソース効率を備えた最先端のパフォーマンスが実証されている。
論文参考訳（メタデータ） (2025-02-19T08:50:44Z)
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文参考訳（メタデータ） (2025-02-05T20:43:48Z)
More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。 KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文参考訳（メタデータ） (2024-12-17T09:20:31Z)
PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。本手法は他の手法と比較して最先端の性能を実現する。
論文参考訳（メタデータ） (2024-12-04T15:48:59Z)
ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文参考訳（メタデータ） (2024-12-04T10:58:27Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
A Simple and Effective $L_2$ Norm-Based Strategy for KV Cache Compression [13.981807478365452]
キーバリューキャッシュサイズを減らすための既存のアプローチは、圧縮戦略を学ぶためのモデルを微調整するか、シーケンス長を減らすためにアテンションスコアを利用するかのいずれかである。キャッシュされたKVペアに対して、$L$とアテンションスコアとの間に明らかな相関関係が見られ、キー埋め込みの低い$L$がデコード時に高いアテンションスコアをもたらす。実験の結果,この単純な手法により,言語モデリングやニードル・イン・ア・ヘイスタックタスクでは50%,パスキー検索タスクでは90%,精度を損なうことなく,KVキャッシュサイズを50%削減できることがわかった。
論文参考訳（メタデータ） (2024-06-17T11:35:16Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。 KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文参考訳（メタデータ） (2024-02-05T06:06:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。