論文の概要: Accelerating LLM Inference via Dynamic KV Cache Placement in Heterogeneous Memory System
- arxiv url: http://arxiv.org/abs/2508.13231v2
- Date: Mon, 15 Sep 2025 14:40:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 15:23:16.338984
- Title: Accelerating LLM Inference via Dynamic KV Cache Placement in Heterogeneous Memory System
- Title(参考訳): 不均一メモリシステムにおける動的KVキャッシュ配置によるLCM推論の高速化
- Authors: Yunhua Fang, Rui Xie, Asad Ul Haq, Linsen Ma, Kaoutar El Maghraoui, Naigang Wang, Meng Wang, Liu Liu, Tong Zhang,
- Abstract要約: 大規模言語モデル(LLM)推論は、メモリ帯域幅によってますます制限される。
現代のAIハードウェアは、高速オフパッケージDRAMと高速帯域メモリ(HBM)を統合している。
本研究は,キャパシティ制約下での集積帯域利用を最大化するために,そのようなシステムにまたがる動的KVキャッシュ配置について検討する。
- 参考スコア(独自算出の注目度): 20.652641518700346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) inference is increasingly constrained by memory bandwidth, with frequent access to the key-value (KV) cache dominating data movement. While attention sparsity reduces some memory traffic, the relevance of past tokens varies over time, requiring the full KV cache to remain accessible and sustaining pressure on both bandwidth and capacity. With advances in interconnects such as NVLink and LPDDR5X, modern AI hardware now integrates high-bandwidth memory (HBM) with high-speed off-package DRAM, making heterogeneous memory systems a practical solution. This work investigates dynamic KV cache placement across such systems to maximize aggregated bandwidth utilization under capacity constraints. Rather than proposing a specific scheduling policy, we formulate the placement problem mathematically and derive a theoretical upper bound, revealing substantial headroom for runtime optimization. To our knowledge, this is the first formal treatment of dynamic KV cache scheduling in heterogeneous memory systems for LLM inference.
- Abstract(参考訳): 大規模言語モデル(LLM)推論は、キー値(KV)キャッシュに頻繁にアクセスすることで、メモリ帯域幅によってますます制限されている。
注意幅はメモリトラフィックを減らすが、過去のトークンの関連性は時間とともに変化し、完全なKVキャッシュがアクセス可能であり、帯域幅とキャパシティの両方に圧力がかかる。
NVLinkやLPDDR5Xのような相互接続の進歩により、現代のAIハードウェアは高速オフパッケージDRAMと高速帯域メモリ(HBM)を統合し、異種メモリシステムを実用的なソリューションとした。
本研究は,キャパシティ制約下での集積帯域利用を最大化するために,そのようなシステムにまたがる動的KVキャッシュ配置について検討する。
特定のスケジューリングポリシーを提案するのではなく、配置問題を数学的に定式化し、理論上界を導出し、実行時最適化のための実質的なヘッドルームを明らかにする。
我々の知る限り、LLM推論のためのヘテロジニアスメモリシステムにおける動的KVキャッシュスケジューリングの正式な処理はこれが初めてである。
関連論文リスト
- KEEP: A KV-Cache-Centric Memory Management System for Efficient Embodied Planning [8.216400469571084]
効率的な実施計画のためのKVキャッシュ型メモリ管理システムKEEPを提案する。
KEEPは,(1)混合粒度メモリグループによるKVキャッシュ再計算を低減する静的動的メモリ構築アルゴリズム,(2)異なるメモリグループ間の重要なクロスアテンションを動的に識別するマルチホップメモリ再計算アルゴリズム,(3)不均衡なKVキャッシュのロードと異なるレイヤ間のクロスアテンションを排除するレイヤバランスのメモリローディングという3つの重要なイノベーションを特徴としている。
論文 参考訳(メタデータ) (2026-02-27T01:48:07Z) - CXL-SpecKV: A Disaggregated FPGA Speculative KV-Cache for Datacenter LLM Serving [5.216774377033164]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
LLMはキー値(KV)キャッシュの大規模なメモリ要求のため、課題に直面している。
我々は,新しい分散KV-cacheアーキテクチャである textbfCXL-SpecKV を提案する。
論文 参考訳(メタデータ) (2025-12-11T15:40:36Z) - DynaKV: Enabling Accurate and Efficient Long-Sequence LLM Decoding on Smartphones [10.813495376006427]
大規模言語モデル(LLM)は、効率的で効果的な長シーケンスデコードをサポートすることがますます期待されている。
DRAM容量が限られているため、スマートフォン上でのLLM復号化はキー値キャッシュ(KVCache)によって制限される。
我々はDynaKVを提案する。DynaKVはスマートフォン上での長時間デコードにおける精度と効率を両立させる最初の適応KVキャッシュ管理手法である。
論文 参考訳(メタデータ) (2025-10-20T08:56:02Z) - Kelle: Co-design KV Caching and eDRAM for Efficient LLM Serving in Edge Computing [9.984481065465028]
エッジデバイス上の大規模言語モデル(LLM)は、レイテンシの低減、リアルタイム処理の改善、プライバシの向上に不可欠である。
エッジデバイスにLLMを実装することは、特にキーバリューキャッシュの管理において、課題となる。
エッジデバイスにおけるLLMのプライマリストレージとしてeDRAMを提案する。
論文 参考訳(メタデータ) (2025-10-16T07:12:08Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [58.044803442346115]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおいてブレークスルーを実現するが、推論中に計算の複雑さやメモリオーバーヘッドに悩まされる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークであり、遅延双方向スパースキャッシングを経由するスパースアテンションである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - Sparse Attention Remapping with Clustering for Efficient LLM Decoding on PIM [7.651654889371008]
トランスフォーマーベースのモデルは現代の機械学習の基礎であるが、その実行はメモリシステムに大きな圧力をかける。
プロセッシング・イン・メモリ(PIM)アーキテクチャは、メモリ近傍で高い内部帯域幅と計算並列性を提供する、有望なソリューションである。
現在のPIM設計は、主に、KVキャッシュスパーシリティ技術によって導入された動的で不規則なアクセスパターンに対処するために最適化されている。
論文 参考訳(メタデータ) (2025-05-09T04:17:05Z) - Accelerating LLM Inference Throughput via Asynchronous KV Cache Prefetching [12.993197799897532]
大規模言語モデル(LLM)は、高帯域メモリ(HBM)帯域幅の制約により、推論中に顕著なメモリバウンド特性を示す。
本稿では,L2キャッシュ指向の非同期KVキャッシュプリフェッチ手法を提案する。
論文 参考訳(メタデータ) (2025-04-08T09:17:35Z) - ZSMerge: Zero-Shot KV Cache Compression for Memory-Efficient Long-Context LLMs [7.958429361868486]
本稿では,効率的なキャッシュ管理のための動的KVキャッシュ圧縮フレームワークZSMergeを提案する。
ZSMergeはメモリ効率と推論速度を無視可能な性能劣化で著しく向上させる。
論文 参考訳(メタデータ) (2025-03-13T03:36:03Z) - A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。
まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。
3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文 参考訳(メタデータ) (2025-02-21T10:12:34Z) - CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。
CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。
我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2024-12-16T13:01:53Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。
我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。
我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-11T12:50:42Z) - vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention [8.20523619534105]
PagedAttention は LLM サービスシステムにおける動的メモリ割り当ての一般的なアプローチである。
仮想メモリにおけるKVキャッシュの整合性を保ちながら、物理メモリのフラグメンテーションを軽減するアプローチとして、vAttentionを提案する。
全体として、vAttentionはPagedAttentionに代わるシンプルでポータブルでパフォーマンスの高いものだ。
論文 参考訳(メタデータ) (2024-05-07T16:00:32Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。