Fugu-MT 論文翻訳(概要): Lexico: Extreme KV Cache Compression via Sparse Coding over Universal Dictionaries

論文の概要: Lexico: Extreme KV Cache Compression via Sparse Coding over Universal Dictionaries

arxiv url: http://arxiv.org/abs/2412.08890v1
Date: Thu, 12 Dec 2024 03:00:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-13 15:57:56.199725
Title: Lexico: Extreme KV Cache Compression via Sparse Coding over Universal Dictionaries
Title（参考訳）: Lexico: ユニバーサル辞書上のスパース符号化による極端KVキャッシュ圧縮
Authors: Junhyuck Kim, Jongho Park, Jaewoong Cho, Dimitris Papailiopoulos,
Abstract要約: Lexicoは、普遍辞書を用いたスパース符号化を利用する新しいKVキャッシュ圧縮手法である。 GSM8Kでは、複数のモデルファミリにまたがって、レキシコは元のパフォーマンスの90-95%を維持し、完全なKVキャッシュメモリの15-25%しか使用していない。
参考スコア（独自算出の注目度）: 6.0031259076311665
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Lexico, a novel KV cache compression method that leverages sparse coding with a universal dictionary. Our key finding is that key-value cache in modern LLMs can be accurately approximated using sparse linear combination from a small, input-agnostic dictionary of ~4k atoms, enabling efficient compression across different input prompts, tasks and models. Using orthogonal matching pursuit for sparse approximation, Lexico achieves flexible compression ratios through direct sparsity control. On GSM8K, across multiple model families (Mistral, Llama 3, Qwen2.5), Lexico maintains 90-95% of the original performance while using only 15-25% of the full KV-cache memory, outperforming both quantization and token eviction methods. Notably, Lexico remains effective in low memory regimes where 2-bit quantization fails, achieving up to 1.7x better compression on LongBench and GSM8K while maintaining high accuracy.
Abstract（参考訳）: 本稿では,共通辞書を用いたスパース符号化を利用した新しいKVキャッシュ圧縮手法であるLexicoを紹介する。我々の鍵となる発見は、現代のLLMにおけるキー値キャッシュは、4kの原子の小さな入力に依存しない辞書からスパース線形結合を用いて正確に近似することができ、異なる入力プロンプト、タスク、モデル間の効率的な圧縮を可能にすることである。レキシコはスパース近似の直交マッチング追従を用いて、直接空間制御によりフレキシブル圧縮比を達成する。 GSM8Kでは、複数のモデルファミリ(Mistral, Llama 3, Qwen2.5)にまたがるレキシコは、KVキャッシュの全メモリの15-25%しか使用せず、元のパフォーマンスの90-95%を維持しており、量子化とトークン消去の両方よりも優れている。特に、レキシコは2ビット量子化が失敗し、高い精度を維持しながらLongBenchとGSM8Kの最大1.7倍の圧縮を実現する低メモリ方式で有効である。

関連論文リスト

HCAttention: Extreme KV Cache Compression via Heterogeneous Attention Computing for LLMs [13.013668526921778]
既存のKVキャッシュ圧縮手法は、メモリが85%以上削減されたときに顕著な性能劣化を示す。我々は、鍵量子化、値オフロード、動的KV消去を統合した異種アテンションフレームワークであるHCAttentionを提案する。また,LongBenchベンチマークを用いて,KVキャッシュメモリのフットプリントを25%に縮めながら,本手法が完全アテンションモデルの精度を維持することを示した。
論文参考訳（メタデータ） (2025-07-26T06:43:14Z)
CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文参考訳（メタデータ） (2025-06-23T17:50:11Z)
ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。近年,KVキャッシュの隠蔽次元の低減について検討されている。本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文参考訳（メタデータ） (2025-05-30T08:49:27Z)
xKV: Cross-Layer SVD for KV-Cache Compression [8.250015628919098]
長いコンテキストウィンドウを持つ大規模言語モデル(LLM)は強力なアプリケーションを実現するが、メモリ消費のコストがかかる。近年の研究では、KV-cacheを複数の層から共有表現にマージする試みが試みられている。支配的な特異ベクトルは、KV-Cacheの複数の層に驚くほどよく整合していることが分かる。 xKVは複数のレイヤのKVキャッシュを共有低ランクサブスペースに統合し、KVキャッシュのサイズを大幅に削減する。
論文参考訳（メタデータ） (2025-03-24T17:06:37Z)
DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文参考訳（メタデータ） (2025-02-24T06:33:39Z)
SVDq: 1.25-bit and 410x Key Cache Compression for LLM Attention [0.0]
KVキャッシュ圧縮技術の主な3つのタイプ、すなわちスパシティ、チャネル圧縮、量子化が同定された。本研究は,Kキャッシュの混合精度定量化法であるSVDqを提案する。
論文参考訳（メタデータ） (2025-02-21T08:55:21Z)
ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [24.48498639513474]
基本圧縮単位としてチャンク内のトークンをグループ化してチャンクKVを導入する。 ChunkKVは異なる層にまたがって保存された指標に高い類似性を示す。我々は,LongBench や Needle-In-A-HayStack,GSM8K や JailbreakV など,最先端の長文ベンチマークに対する ChunkKV の評価を行った。
論文参考訳（メタデータ） (2025-02-01T03:49:47Z)
Cache Me If You Must: Adaptive Key-Value Quantization for Large Language Models [28.16603647353951]
AQUA-KVは、コンパクトアダプタに依存するキーバリューキャッシュの適応量子化である。パープレキシティとLongBenchスコアの相対誤差を1%以下の値で2-2.5ビットで近似する。
論文参考訳（メタデータ） (2025-01-31T18:47:42Z)
ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文参考訳（メタデータ） (2024-12-04T10:58:27Z)
KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文参考訳（メタデータ） (2024-10-24T08:06:41Z)
KV-Compress: Paged KV-Cache Compression with Variable Compression Rates per Attention Head [0.8158530638728501]
そこで我々は,PagedAttentionフレームワーク内で連続KVブロックを除去する新しい圧縮手法であるKV-Compressを紹介する。本手法は,Mistral-7B-Instruct-v0.2およびLlama-3.1-8B-InstructのLongBenchにおける圧縮KVの総数を4倍に減らしながら,最先端の性能を実現する。 Llama-3.1-8B-InstructとLlama-3.1-70B-Instruct-FP8の評価は、圧縮速度を最大8倍まで達成し、性能に悪影響を及ぼすことなく、フルキャッシュ性能の90%以上を維持しながら、最大64倍まで向上する。
論文参考訳（メタデータ） (2024-09-30T19:09:13Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。 LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文参考訳（メタデータ） (2024-06-08T01:35:11Z)
PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [53.08975547824068]
本研究では,大規模言語モデル(LLM)内の注意に基づく情報フローが,長期的文脈処理のための顕著なパターンによって集約されるかどうかを検討する。観測の結果,LLMは下層に広く注意が散らばっているピラミッド情報ファンリングを通じて情報を集約することがわかった。これらの知見に触発され、我々は新しい効率的なKVキャッシュ圧縮法であるPraamid KVを開発した。
論文参考訳（メタデータ） (2024-06-04T07:51:30Z)
GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless Generative Inference of LLM [37.87634266742105]
キーバリュー(KV)キャッシングは,大規模言語モデル(LLM)推論における生成速度を高速化するデファクトとなっている。既存の方法は、重要でないトークンをドロップしたり、全てのエントリを均一に定量化することに依存している。本稿では,高速なKVキャッシュ圧縮フレームワークであるGEARを提案する。
論文参考訳（メタデータ） (2024-03-08T18:48:30Z)
Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文参考訳（メタデータ） (2024-02-14T18:54:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。