論文の概要: MatKV: Trading Compute for Flash Storage in LLM Inference
- arxiv url: http://arxiv.org/abs/2512.22195v1
- Date: Sat, 20 Dec 2025 14:17:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.875035
- Title: MatKV: Trading Compute for Flash Storage in LLM Inference
- Title(参考訳): MatKV: LLM推論におけるFlashストレージのためのトレーディングコンピューティング
- Authors: Kun-Woo Shin, Jay H. Park, Moonwook Oh, Yohan Jo, Jaeyoung Do, Sang-Won Lee,
- Abstract要約: MatKVはRAGオブジェクトのキー値ベクトル(KV)をプリ計算するスキームである。
安価だが高速で効率の良いフラッシュストレージで実現している。
RAGワークロードの推論時間と消費電力を半分に削減します。
- 参考スコア(独自算出の注目度): 16.298087695723982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We observe two major trends in LLM-based generative AI: (1) inference is becoming the dominant factor in terms of cost and power consumption, surpassing training, and (2) retrieval augmented generation (RAG) is becoming prevalent. When processing long inputs in RAG, the prefill phase of computing the key-value vectors of input text is energy-intensive and time-consuming even with high-end GPUs. Thus, it is crucial to make the prefill phase in RAG inference efficient. To address this issue, we propose MatKV, a scheme that precomputes the key-value vectors (KVs) of RAG objects (e.g., documents), materializes them in inexpensive but fast and power-efficient flash storage, and reuses them at inference time instead of recomputing the KVs using costly and power-inefficient GPU. Experimental results using Hugging Face's Transformers library across state-of-the-art GPUs and flash memory SSDs confirm that, compared to full KV computation on GPUs, MatKV reduces both inference time and power consumption by half for RAG workloads, without severely impacting accuracy in the question-answering task. Furthermore, we demonstrate that MatKV enables additional optimizations in two ways. First, a GPU can decode text while simultaneously loading the materialized KVs for the next instance, reducing load latency. Second, since decoding speed is less sensitive to GPU performance than KV computation, low-end GPUs can be leveraged for decoding without significantly compromising speed once the materialized KVs are loaded into GPU memory. These findings underscore MatKV's potential to make large-scale generative AI applications more cost-effective, power-efficient, and accessible across a wider range of tasks and hardware environments.
- Abstract(参考訳): LLMベースの生成AIにおける2つの主要なトレンドを考察する:(1)コストと消費電力の面では推論が主流となり、トレーニングを超越し、(2)検索強化生成(RAG)が普及しつつある。
RAGで長い入力を処理する場合、入力テキストのキー値ベクトルの計算のプリフィルフェーズは、ハイエンドGPUでもエネルギー集約的で時間を要する。
したがって、RAG推論におけるプリフィルフェーズを効率的にすることが重要である。
そこで本研究では,RAGオブジェクトのキー値ベクトル(KV)をプリ計算し,高速かつ高効率なフラッシュストレージとして実現し,低コストで非効率なGPUを用いてKVを再計算する代わりに,推論時に再利用するスキームであるMatKVを提案する。
最先端のGPUとフラッシュメモリにわたるHugging FaceのTransformersライブラリを使用した実験結果から、GPU上のフルKV計算と比較して、MatKVは、質問応答タスクの正確性に大きな影響を与えずに、RAGワークロードの推論時間と消費電力を半分削減する。
さらに、MatchKVは2つの方法で追加の最適化を可能にすることを示す。
まず、GPUはテキストをデコードし、同時に次のインスタンスの物質化されたKVをロードする。
第二に、デコーディング速度はKV計算よりもGPU性能に敏感ではないため、物質化されたKVをGPUメモリにロードすると、デコーディングの速度を著しく向上させることなく、ローエンドのGPUを活用することができる。
これらの発見は、大規模な生成AIアプリケーションをよりコスト効率が高く、電力効率が高く、幅広いタスクやハードウェア環境にまたがってアクセス可能なものにする、MateKVの可能性を浮き彫りにしている。
関連論文リスト
- Breaking the Boundaries of Long-Context LLM Inference: Adaptive KV Management on a Single Commodity GPU [23.168435940997664]
本稿では,1つのコモディティGPUのためのLLM推論システムLeoAMについて述べる。
我々のシステムは,KVデータを可変サイズのチャンクに分割する適応的なKV管理戦略を採用している。
また,全KVデータではなく,ディスク上の各チャンクのKV抽象を格納・抽出することで,伝送遅延を最小限に抑える軽量なKV抽象手法を提案する。
論文 参考訳(メタデータ) (2025-06-25T07:26:42Z) - CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。
まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。
提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文 参考訳(メタデータ) (2025-06-23T17:50:11Z) - KVPR: Efficient LLM Inference with I/O-Aware KV Cache Partial Recomputation [7.204881999658682]
キーバリューキャッシュは、大きな言語モデルの中間アクティベーションを格納するために使用される。
KVキャッシュに必要なメモリは急速に増加し、しばしばGPUメモリの容量を超える。
既存の方法は、GPU計算をI/Oで重複させたり、CPU-GPUの不均一な実行を採用することで、これらの問題に対処しようとする。
本稿では,CPUが最初にアクティベーションの部分集合を転送する,効率的なI/O対応LPM推論手法であるKVPRを紹介する。
KVPRは、最先端のアプローチと比較して最大で35.8%のレイテンシと46.2%のスループットを実現している。
論文 参考訳(メタデータ) (2024-11-26T04:03:14Z) - RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval [24.472784635757016]
RetrievalAttentionは、注意計算を高速化し、GPUメモリ消費を減らすためのトレーニング不要のアプローチである。
RetrievalAttentionは1-3%のデータのみを必要としながら、ほぼ全注意精度を達成できることを示す。
論文 参考訳(メタデータ) (2024-09-16T17:59:52Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。