Fugu-MT 論文翻訳(概要): KVSwap: Disk-aware KV Cache Offloading for Long-Context On-device Inference

論文の概要: KVSwap: Disk-aware KV Cache Offloading for Long-Context On-device Inference

arxiv url: http://arxiv.org/abs/2511.11907v1
Date: Fri, 14 Nov 2025 22:37:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-18 14:36:23.384558
Title: KVSwap: Disk-aware KV Cache Offloading for Long-Context On-device Inference
Title（参考訳）: KVSwap: 長期オンデバイス推論のためのディスク対応KVキャッシュのオフロード
Authors: Huawei Zhang, Chunwei Xia, Zheng Wang,
Abstract要約: 言語モデル(LM)は、ミーティングやビデオの要約、ドキュメント分析といった、モバイルおよび組み込みAIアプリケーションを支えるものだ。キー値(KV)キャッシュがコンテキスト長とバッチサイズとともに線形に増加するため、長コンテキスト推論はすぐにメモリキャパシティウォールにヒットする。 KVSwapは、KVキャッシュを非揮発性二次記憶装置(ディスク)にオフロードすることで、このメモリ壁を壊すソフトウェアフレームワークである。 KVSwapは、既存のKVキャッシュオフロード方式と比較して、生成品質を維持しながら、厳しいメモリ予算の下で高いスループットを提供する。
参考スコア（独自算出の注目度）: 6.159622195480178
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language models (LMs) underpin emerging mobile and embedded AI applications like meeting and video summarization and document analysis, which often require processing multiple long-context inputs. Running an LM locally on-device improves privacy, enables offline use, and reduces cost, but long-context inference quickly hits a \emph{memory capacity wall} as the key-value (KV) cache grows linearly with context length and batch size. We present KVSwap, a software framework to break this memory wall by offloading the KV cache to non-volatile secondary storage (disk). KVSwap leverages the observation that only a small, dynamically changing subset of KV entries is critical for generation. It stores the full cache on disk, uses a compact in-memory metadata to predict which entries to preload, overlaps computation with hardware-aware disk access, and orchestrates read patterns to match storage device characteristics. Our evaluation shows that across representative LMs and storage types, KVSwap delivers higher throughput under tight memory budgets while maintaining the generation quality when compared with existing KV cache offloading schemes.
Abstract（参考訳）: 言語モデル(LM)は、会議やビデオの要約、文書分析といった、モバイルおよび組み込みAIアプリケーションを支えるものだ。 LMをオンデバイスでローカルに実行すると、プライバシが向上し、オフライン使用が可能になり、コストが削減されるが、キー値(KV)キャッシュがコンテキスト長とバッチサイズとともに線形に増加するため、長コンテキスト推論はすぐに \emph{Memory capacity wall} に達する。 KVSwapは、KVキャッシュを非揮発性二次記憶装置(ディスク)にオフロードすることで、このメモリ壁を壊すソフトウェアフレームワークである。 KVSwapは、KVエントリの小さな動的に変化するサブセットのみが生成に不可欠である、という観察を活用している。完全なキャッシュをディスクに格納し、コンパクトなインメモリメタデータを使用して、どのエントリをプリロードするかを予測し、ハードウェア対応ディスクアクセスと計算を重複させ、リードパターンをオーケストレーションしてストレージデバイス特性にマッチさせる。 KVSwapは,従来のKVキャッシュのオフロード方式と比較して,メモリ予算の厳格化を図りながら,高スループットを実現している。

関連論文リスト

DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。 DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文参考訳（メタデータ） (2026-02-08T15:14:36Z)
CXL-SpecKV: A Disaggregated FPGA Speculative KV-Cache for Datacenter LLM Serving [5.216774377033164]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。 LLMはキー値(KV)キャッシュの大規模なメモリ要求のため、課題に直面している。我々は,新しい分散KV-cacheアーキテクチャである textbfCXL-SpecKV を提案する。
論文参考訳（メタデータ） (2025-12-11T15:40:36Z)
TinyServe: Query-Aware Cache Selection for Efficient LLM Serving [5.216774377033164]
本稿では,大規模言語モデル(LLM)を効率的に提供するためのTinyServeを提案する。 TinyServeは、スポーシティ戦略ときめ細かいインスツルメンテーションでリアルタイムデコーディングを実行する。我々の実験では、TinyServeがtextbf3.4x の高速化と textbf2x のメモリ節約を無視できる精度の低下で実現している。
論文参考訳（メタデータ） (2025-08-28T16:17:18Z)
Accelerating LLM Inference via Dynamic KV Cache Placement in Heterogeneous Memory System [20.652641518700346]
大規模言語モデル(LLM)推論は、メモリ帯域幅によってますます制限される。現代のAIハードウェアは、高速オフパッケージDRAMと高速帯域メモリ(HBM)を統合している。本研究は,キャパシティ制約下での集積帯域利用を最大化するために,そのようなシステムにまたがる動的KVキャッシュ配置について検討する。
論文参考訳（メタデータ） (2025-08-17T19:07:08Z)
DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文参考訳（メタデータ） (2025-02-24T06:33:39Z)
CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。 CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文参考訳（メタデータ） (2024-12-16T13:01:53Z)
SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文参考訳（メタデータ） (2024-12-13T17:59:52Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文参考訳（メタデータ） (2023-10-03T05:17:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。