Fugu-MT 論文翻訳(概要): CoKV: Optimizing KV Cache Allocation via Cooperative Game

論文の概要: CoKV: Optimizing KV Cache Allocation via Cooperative Game

arxiv url: http://arxiv.org/abs/2502.17501v1
Date: Fri, 21 Feb 2025 12:03:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-26 17:42:45.020526
Title: CoKV: Optimizing KV Cache Allocation via Cooperative Game
Title（参考訳）: CoKV: 協調ゲームによるKVキャッシュ割り当ての最適化
Authors: Qiheng Sun, Hongwei Zhang, Haocheng Xia, Jiayao Zhang, Jinfei Liu, Kui Ren,
Abstract要約: 大規模言語モデル(LLM)は、人間の生活の様々な側面において顕著な成功を収めた。これらのモデルをデプロイする際の大きな課題の1つは、キーと値のペアを保存するのに必要なかなりのメモリ消費である。モデル推論における頭部間の協調を協調ゲームとしてモデル化する新しい手法であるCoKVを提案する。
参考スコア（独自算出の注目度）: 13.44935679876997
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have achieved remarkable success on various aspects of human life. However, one of the major challenges in deploying these models is the substantial memory consumption required to store key-value pairs (KV), which imposes significant resource demands. Recent research has focused on KV cache budget allocation, with several approaches proposing head-level budget distribution by evaluating the importance of individual attention heads. These methods, however, assess the importance of heads independently, overlooking their cooperative contributions within the model, which may result in a deviation from their true impact on model performance. In light of this limitation, we propose CoKV, a novel method that models the cooperation between heads in model inference as a cooperative game. By evaluating the contribution of each head within the cooperative game, CoKV can allocate the cache budget more effectively. Extensive experiments show that CoKV achieves state-of-the-art performance on the LongBench benchmark using LLama-3-8B-Instruct and Mistral-7B models.
Abstract（参考訳）: 大規模言語モデル(LLM)は、人間の生活の様々な側面において顕著な成功を収めた。しかし、これらのモデルをデプロイする際の大きな課題の1つは、キーと値のペア(KV)を保存するのに必要なメモリ消費がかなり大きいことである。近年、KVキャッシュの予算配分に焦点が当てられ、個別のアテンションヘッドの重要性を評価することによって、ヘッドレベルの予算配分を提案するアプローチがいくつかある。しかし、これらの手法は、モデル内の協力的な貢献を見落とし、モデルの性能に対する真の影響から逸脱する可能性がある。この制限を考慮して,モデル推論における頭部間の協調を協調ゲームとしてモデル化する新しい手法であるCoKVを提案する。協調ゲームにおける各ヘッドの寄与を評価することにより、CoKVはキャッシュ予算をより効果的に割り当てることができる。 LLama-3-8B-InstructモデルとMistral-7Bモデルを用いて,CoKVがLongBenchベンチマークの最先端性能を達成することを示す。

関連論文リスト

SmallKV: Small Model Assisted Compensation of KV Cache Compression for Efficient LLM Inference [71.20542521694524]
SmallKVはKVキャッシュ圧縮のための小型モデル補助補償法である。本研究では,SmallKVのスループットがベースライン法よりも1.75～2.56倍高いことを示す。
論文参考訳（メタデータ） (2025-08-03T09:15:36Z)
LagKV: Lag-Relative Information of the KV Cache Tells Which Tokens Are Important [13.45388421871017]
LagKV は KV の割り当て戦略であり、KV 間の直接の前方比較にのみ依存する。 LongBench と PasskeyRetrieval の結果から,従来のモデルの性能の 2 倍と $approx 90% の比率で,ほぼゼロの損失を達成できたことが分かる。
論文参考訳（メタデータ） (2025-04-07T03:22:15Z)
DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文参考訳（メタデータ） (2025-02-24T06:33:39Z)
BaKlaVa -- Budgeted Allocation of KV cache for Long-context Inference [6.222836318380985]
BaKlaVaは、モデル全体で個々のKVキャッシュに対して最適なメモリを割り当てる手法である。 LLaMA-3-8BモデルとQwen2.5-7Bモデルについて検討した。
論文参考訳（メタデータ） (2025-02-18T04:08:29Z)
PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。本手法は他の手法と比較して最先端の性能を実現する。
論文参考訳（メタデータ） (2024-12-04T15:48:59Z)
Unifying KV Cache Compression for Large Language Models with LeanKV [28.452123478834803]
大規模言語モデル(LLM)は、優れた性能を示すが、かなりのメモリ要件のため、かなりのサービスコストがかかる。量子化やプルーニングなどの既存のKVキャッシュ圧縮技術は、キーと値の両方に均一な処理を適用し、重要でないトークンを完全に破棄する。本稿では,KVキャッシュの3段階の差分を利用して,KVキャッシュ圧縮を改善するフレームワークであるLeanKVを紹介する。
論文参考訳（メタデータ） (2024-12-04T08:51:23Z)
Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文参考訳（メタデータ） (2024-11-27T18:50:15Z)
Hymba: A Hybrid-head Architecture for Small Language Models [65.94140459055244]
Hymbaは、ハイブリッドヘッド並列アーキテクチャを特徴とする、小さな言語モデルのファミリーである。重要な情報を保持するプロンプトに先立って,学習可能なメタトークンを導入する。このモデルは、層間鍵値共有と部分的スライディングウィンドウアテンションを組み込むことにより、さらに最適化される。
論文参考訳（メタデータ） (2024-11-20T19:51:25Z)
Not All Heads Matter: A Head-Level KV Cache Compression Method with Integrated Retrieval and Reasoning [19.942402563256962]
キーバリューキャッシング(キーバリューキャッシング、英: Key-Value cache)は、大規模言語モデル(LLM)の計算効率を高めるための一般的な手法である。本稿では,新たな文脈推論能力推定手法であるヘッドKVとヘッドKV-R2を提案する。本手法は,文脈質問応答ベンチマークにおいて,全KVキャッシュの性能の97%を達成しつつ,KVキャッシュの1.5%しか保持しない。
論文参考訳（メタデータ） (2024-10-25T02:22:00Z)
KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文参考訳（メタデータ） (2024-10-24T08:06:41Z)
Lossless KV Cache Compression to 2% [22.98828332096935]
この研究は、KVキャッシュを元のサイズの2%未満に圧縮することを目的とした、新しいアーキテクチャであるCLLA(Cross-Layer Latent Attention)を導入している。 CLLAは、アテンションヘッド/ディメンション低減、レイヤ共有、量子化技術を結合的なフレームワークに統合する。
論文参考訳（メタデータ） (2024-10-20T02:17:35Z)
A Systematic Study of Cross-Layer KV Sharing for Efficient LLM Inference [41.149350870029046]
キー値(KV)キャッシュは大規模言語モデル(LLM)の効率的な推論に有効であることが判明した。本稿では,近年の手法とその新しいバリエーションを網羅する統一フレームワークを提案する。 KVキャッシュのサイズを2$times$にすると、ほとんどの構成は標準のトランスフォーマーよりも高いスループットを実現することができる。
論文参考訳（メタデータ） (2024-10-18T13:01:14Z)
Co-training and Co-distillation for Quality Improvement and Compression of Language Models [88.94539115180919]
知識蒸留(KD)は、知識をより小さなモデルに伝達することで、高価な事前訓練言語モデル(PLM)を圧縮する。ほとんどの小型モデルはオリジナルの大型モデルの性能を上回ることができず、推論速度を改善するために性能を犠牲にする結果となった。本稿では,2つのモデルを協調学習することで,性能と推論速度を共に向上する新しいフレームワークであるCTCDを提案する。
論文参考訳（メタデータ） (2023-11-06T03:29:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。