Fugu-MT 論文翻訳(概要): Scissorhands: Exploiting the Persistence of Importance Hypothesis for LLM KV Cache Compression at Test Time

論文の概要: Scissorhands: Exploiting the Persistence of Importance Hypothesis for LLM KV Cache Compression at Test Time

arxiv url: http://arxiv.org/abs/2305.17118v1
Date: Fri, 26 May 2023 17:39:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-29 13:07:40.369657
Title: Scissorhands: Exploiting the Persistence of Importance Hypothesis for LLM KV Cache Compression at Test Time
Title（参考訳）: scissorhands: テスト時のllm kvキャッシュ圧縮における重要度仮説の永続性を活用する
Authors: Zichang Liu, Aditya Desai, Fangshuo Liao, Weitao Wang, Victor Xie, Zhaozhuo Xu, Anastasios Kyrillidis, Anshumali Shrivastava
Abstract要約: 大規模言語モデル(LLM)は、エキサイティングなAIアプリケーションに新たな波を巻き起こした。デプロイメントにおける重要なメモリボトルネックのひとつは、コンテキストウィンドウにある。固定予算でKVキャッシュのメモリ使用量を維持するシステムであるScisorhandsを提案する。
参考スコア（独自算出の注目度）: 35.02624912052864
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models(LLMs) have sparked a new wave of exciting AI applications. Hosting these models at scale requires significant memory resources. One crucial memory bottleneck for the deployment stems from the context window. It is commonly recognized that model weights are memory hungry; however, the size of key-value embedding stored during the generation process (KV cache) can easily surpass the model size. The enormous size of the KV cache puts constraints on the inference batch size, which is crucial for high throughput inference workload. Inspired by an interesting observation of the attention scores, we hypothesize the persistence of importance: only pivotal tokens, which had a substantial influence at one step, will significantly influence future generations. Based on our empirical verification and theoretical analysis around this hypothesis, we propose Scissorhands, a system that maintains the memory usage of the KV cache at a fixed budget without finetuning the model. In essence, Scissorhands manages the KV cache by storing the pivotal tokens with a higher probability. We validate that Scissorhands reduces the inference memory usage of the KV cache by up to 5X without compromising model quality. We further demonstrate that Scissorhands can be combined with 4-bit quantization, traditionally used to compress model weights, to achieve up to 20X compression.
Abstract（参考訳）: 大規模言語モデル(LLM)は、エキサイティングなAIアプリケーションに新たな波を巻き起こした。これらのモデルを大規模にホストするには、かなりのメモリリソースが必要です。デプロイメントにおける重要なメモリボトルネックのひとつは、コンテキストウィンドウにある。モデル重みはメモリに飢えていると一般的に認識されるが、生成プロセス(kvキャッシュ)中に格納されたキー値埋め込みのサイズはモデルサイズを上回ることができる。 KVキャッシュの巨大なサイズは、高いスループットの推論ワークロードにとって重要な推論バッチサイズに制約を課します。注意点の興味深い観察から着想を得た我々は、重要さの持続性を仮説を立てた。この仮説に関する実証的検証と理論的解析に基づいて、モデルを微調整することなくKVキャッシュのメモリ使用率を一定予算で維持するシステムであるScisorhandsを提案する。本質的に、ScisorhandsはKVキャッシュを管理するために、より高い確率でキートークンを格納する。モデル品質を損なうことなく,KVキャッシュの推論メモリ使用量を最大5倍に削減できることを確認した。さらに,シッソルハンドと4ビット量子化を組み合わせることで,従来モデル重みを圧縮し,最大20倍の圧縮を実現することを実証した。

関連論文リスト

HCAttention: Extreme KV Cache Compression via Heterogeneous Attention Computing for LLMs [13.013668526921778]
既存のKVキャッシュ圧縮手法は、メモリが85%以上削減されたときに顕著な性能劣化を示す。我々は、鍵量子化、値オフロード、動的KV消去を統合した異種アテンションフレームワークであるHCAttentionを提案する。また,LongBenchベンチマークを用いて,KVキャッシュメモリのフットプリントを25%に縮めながら,本手法が完全アテンションモデルの精度を維持することを示した。
論文参考訳（メタデータ） (2025-07-26T06:43:14Z)
ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。近年,KVキャッシュの隠蔽次元の低減について検討されている。本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文参考訳（メタデータ） (2025-05-30T08:49:27Z)
KVCrush: Key value cache size-reduction using similarity in head-behaviour [40.792661186062396]
大規模言語モデル(LLM)における推論を高速化する重要な最適化手法としてキーバリューキャッシュ(KV)が登場している。しかしながら、KVのメモリフットプリントは、モデルのバッチサイズに直接影響を与えるモデルデプロイメントにおいて、大きなボトルネックとなります。我々は,KVCrushと多くのKV圧縮技術を組み合わせることで,より小さなメモリでモデル精度を向上させることを提案する。
論文参考訳（メタデータ） (2025-02-24T02:57:51Z)
KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文参考訳（メタデータ） (2024-10-24T08:06:41Z)
Eigen Attention: Attention in Low-Rank Space for KV Cache Compression [9.080678336379528]
我々は,低ランク空間における注意操作を行うEigen Attentionを提案し,KVキャッシュメモリのオーバーヘッドを低減する。その結果,Eigen AttentionはKVキャッシュサイズを最大40%削減し,注目動作遅延を最大60%低減し,性能の低下を最小化できることがわかった。
論文参考訳（メタデータ） (2024-08-10T22:47:12Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文参考訳（メタデータ） (2024-05-21T08:35:10Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
QAQ: Quality Adaptive Quantization for LLM KV Cache [3.163526369095745]
モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。 KVキャッシュのための品質適応量子化スキームQAQを提案する。
論文参考訳（メタデータ） (2024-03-07T16:42:37Z)
KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。 KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文参考訳（メタデータ） (2024-02-05T06:06:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。