論文の概要: WorldKV: Efficient World Memory with World Retrieval and Compression
- arxiv url: http://arxiv.org/abs/2605.22718v1
- Date: Thu, 21 May 2026 16:55:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.610332
- Title: WorldKV: Efficient World Memory with World Retrieval and Compression
- Title(参考訳): WorldKV: 世界検索と圧縮による効率的な世界記憶
- Authors: Jung Yi, Minjae Kim, Paul Hyunbin Cho, Wooseok Jang, Sangdoo Yun, Seungryong Kim,
- Abstract要約: 我々は、World RetrievalとWorld Compressionの2つのコンポーネントを備えた、トレーニング不要のフレームワークであるWorldKVを提案する。
Matrix-Game-2.0とLingBot-World-Fastでは、WorldKVはスループットの約2倍のフルKVメモリ忠実度に対応し、微調整なしでメモリトレーニングされたベースラインと競合する。
- 参考スコア(独自算出の注目度): 56.57011243315561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive video diffusion models have enabled real-time, action-conditioned world generation. However, sustaining a persistent world, where revisiting a previously seen viewpoint yields consistent content, remains an open problem. Full KV-cache attention preserves this consistency but breaks real-time constraints: memory footprint and attention cost grow linearly with rollout length. Sliding window inference restores throughput but discards long-term consistency. We propose WorldKV, a training-free framework with two components: World Retrieval and World Compression. World Retrieval stores evicted KV-cache chunks in GPU/CPU memory and selectively retrieves scene-relevant chunks via camera/ action correspondence, inserting them back into the native attention window without re-encoding. World Compression prunes redundant tokens within each chunk via key-key similarity to an anchor frame, halving per-chunk storage to fit 2x more history under a fixed budget. On Matrix-Game-2.0 and LingBot- World-Fast, WorldKV matches or exceeds full-KV memory fidelity at roughly 2x the throughput, and is competitive with memory-trained baselines without any fine-tuning. Project Page: https://cvlab-kaist.github.io/WorldKV/
- Abstract(参考訳): 自己回帰ビデオ拡散モデルにより、リアルタイムな行動条件付き世界生成が可能になった。
しかし、これまで見てきた視点を再考することで一貫したコンテンツが得られる永続的な世界を維持することは、依然として未解決の問題である。
完全なKVキャッシュの注意は、この一貫性を保つが、リアルタイムの制約を破る。
スライディングウィンドウ推論はスループットを回復するが、長期的な一貫性を捨てる。
我々は、World RetrievalとWorld Compressionの2つのコンポーネントを備えた、トレーニング不要のフレームワークであるWorldKVを提案する。
World Retrievalは、GPU/CPUメモリに削除されたKV-cacheチャンクを格納し、カメラ/アクション対応を介してシーン関連チャンクを選択的に検索し、再エンコードすることなくネイティブアテンションウィンドウに挿入する。
World Compressionはキーキーとアンカーフレームとの類似性を通じて各チャンク内の冗長トークンを抽出し、固定された予算の下で2倍の履歴に収まるようにチャンク単位のストレージを半減する。
Matrix-Game-2.0とLingBot-World-Fastでは、WorldKVはスループットの約2倍のフルKVメモリ忠実度と一致し、微調整なしでメモリトレーニングされたベースラインと競合する。
Project Page: https://cvlab-kaist.github.io/WorldKV/
関連論文リスト
- MuKV: Multi-Grained KV Cache Compression for Long Streaming Video Question-Answering [75.0394545769057]
KVキャッシュは、LLMプリフィルを介して歴史的なトークンのキーバリューを格納する。
MuKV は KV キャッシュ圧縮モジュールと半階層的検索手法を特徴とする手法である。
長時間ストリーミングのVideoQAベンチマークの実験では、MKVはメモリとオンラインQA効率を犠牲にすることなく、回答の正確性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2026-05-21T10:13:03Z) - VeriCache: Turning Lossy KV Cache into Lossless LLM Inference [24.571166055469508]
私たちは、フルKV-cacheデコードと同じ出力を保証する最初の推論フレームワークであるVeriCacheを紹介します。
VeriCacheはフルKVキャッシュよりも最大4倍高いスループットを実現していることを示す。
論文 参考訳(メタデータ) (2026-05-17T19:18:39Z) - KV Cache Quantization for Self-Forcing Video Generation: A 33-Method Empirical Study [0.0]
本稿では, Wan2.1 ベースの自己強制スタック上での自己強制ビデオ生成のための KV-cache 圧縮に関する総合的研究を行う。
本研究は,33種類の量子化とキャッシュ・ポリティクス,610個のプロンプトレベルの観測,63個のベンチマークレベルの要約について検討した。
我々は,ピークVRAM,ランタイム,圧縮率,VBench画像品質,BF16参照忠実度(SSIM,LPIPS,PSNR),端末ドリフトを共同評価した。
論文 参考訳(メタデータ) (2026-03-29T01:35:16Z) - DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - RocketKV: Accelerating Long-Context LLM Inference via Two-Stage KV Cache Compression [25.190765258589707]
トレーニング不要なKVキャッシュ圧縮戦略であるRocketKVについて述べる。
第1段階では、入力シーケンストークンに対して粗粒永久KVキャッシュ消去を行う。
第2段階では、微粒のトップkスパースアテンションを行うために、ハイブリッドスパースアテンション方式を採用する。
論文 参考訳(メタデータ) (2025-02-19T19:12:46Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [61.412894960600205]
大きな言語モデル(LLM)は、長いテキストを処理する際に大きなGPUメモリを必要とする。
ChunkKVは、セマンティックチャンクを基本的な圧縮単位として扱うことで、KVキャッシュ圧縮を再定義する。
結果: ChunkKVは最先端の手法を最大8.7%精度で上回る。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。