論文の概要: OmniMem: Scalable and Adaptive Memory Retrieval for Long Video Generation
- arxiv url: http://arxiv.org/abs/2605.30519v1
- Date: Thu, 28 May 2026 19:56:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.204643
- Title: OmniMem: Scalable and Adaptive Memory Retrieval for Long Video Generation
- Title(参考訳): OmniMem: 長期ビデオ生成のためのスケーラブルで適応的なメモリ検索
- Authors: Lin Zhao, Yushu Wu, Yifan Gong, Yanzhi Wang, Pu Zhao,
- Abstract要約: 本稿では,履歴キャッシュ上でスパースKV検索を行う,明示的なフルレンジメモリ検索フレームワークを提案する。
長時間のビデオ生成の実験では、OmniMemはDynamic Degreeを52.3%改善した。
- 参考スコア(独自算出の注目度): 35.901097079422755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive (AR) video generation extends videos by producing latent chunks sequentially, but scaling to long videos requires repeated access to a growing historical KV cache. Existing methods reduce this cost by truncating the KV cache or compressing it into implicit memory, but both lose explicit access to query-relevant historical details. We propose OmniMem, an explicit full-range memory retrieval framework that performs sparse KV retrieval over the historical cache. To make this practical for chunk-based AR video generation, OmniMem addresses two issues: (i) local bias in sparse KV selection and (ii) Union Explosion in memory access. Adaptive Window Exclusion removes local-window blocks from the selection candidates when sufficient long-range history is available, preserving the sparse budget for informative long-range retrieval. Query-Shared KV Selection reduces cross-query diversity, while Per-Head Scattered KV Access avoids expanding head-specific selections into a large selected KV buffer. This allows each attention head to retrieve non-contiguous KV blocks according to its own selection pattern. Experiments on long-video generation show that OmniMem improves Dynamic Degree by 52.3% and preserves strong consistency over strong baselines, while maintaining comparable memory usage.
- Abstract(参考訳): 自動回帰(AR)ビデオ生成は、遅延チャンクを逐次生成することでビデオを拡張するが、長いビデオにスケールするには、増大する歴史的なKVキャッシュに繰り返しアクセスする必要がある。
既存の方法では、KVキャッシュを切断したり、暗黙のメモリに圧縮することで、このコストを削減できるが、どちらもクエリに関連する履歴情報への明示的なアクセスを失う。
我々は,履歴キャッシュ上でスパースKV検索を行う明示的なフルレンジメモリ検索フレームワークであるOmniMemを提案する。
チャンクベースのARビデオ生成でこれを実用的なものにするために、OmniMemは2つの問題に対処する。
(i)スパースKV選択と局所バイアス
(II) メモリアクセスにおける連合爆発
Adaptive Window Exclusionは、十分な長距離履歴が利用可能である場合に、選択候補からローカルウィンドウブロックを削除し、情報的長距離検索のためのスパース予算を保存する。
クエリ共有KV選択は、クロスクエリの多様性を低減する一方、Per-Head Scattered KV Accessは、ヘッド固有の選択を大きな選択KVバッファに拡張することを避ける。
これにより、各アテンションヘッドは、その選択パターンに従って非連続KVブロックを検索することができる。
長時間のビデオ生成の実験では、OmniMemはDynamic Degreeを52.3%改善し、強力なベースラインに対する強い一貫性を維持しながら、同等のメモリ使用率を維持している。
関連論文リスト
- MuKV: Multi-Grained KV Cache Compression for Long Streaming Video Question-Answering [75.0394545769057]
KVキャッシュは、LLMプリフィルを介して歴史的なトークンのキーバリューを格納する。
MuKV は KV キャッシュ圧縮モジュールと半階層的検索手法を特徴とする手法である。
長時間ストリーミングのVideoQAベンチマークの実験では、MKVはメモリとオンラインQA効率を犠牲にすることなく、回答の正確性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2026-05-21T10:13:03Z) - KVDrive: A Holistic Multi-Tier KV Cache Management System for Long-Context LLM Inference [23.683284557561112]
我々は、GPUメモリ、ホストDRAM、SSDにまたがる総合的なマルチ層KVキャッシュ管理システムであるKVDriveを紹介する。
KVDriveは、キャッシュ配置、パイプラインスケジューリング、階層間の調整を共同でオーケストレーションするシステムの観点から、この問題に取り組む。
このシステムは精度を保ちながら最先端の作業に比べて最大1.74倍のスループットを実現している。
論文 参考訳(メタデータ) (2026-05-18T08:54:16Z) - Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation [48.476317015122625]
Echo-Forcingは、インタラクティブなロングビデオ生成のためのトレーニング不要のシーンメモリフレームワークである。
キャッシュのバウンダリでスムーズなトランジション、ハードカット、長距離シーンリコールをサポートする。
論文 参考訳(メタデータ) (2026-05-15T14:33:09Z) - ZoomR: Memory Efficient Reasoning through Multi-Granularity Key Value Retrieval [58.575695990976136]
大規模言語モデル(LLM)は複雑な推論タスクにおいて優れたパフォーマンスを示している。
LLMは、最終的な答えに到達する前に、長い中間的思考を生成する必要があることが多い。
我々は,LLMが動詞の推論思考を要約に適応的に圧縮することを可能にする新しいアプローチであるZoomRを紹介する。
論文 参考訳(メタデータ) (2026-04-13T02:00:35Z) - DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization [83.406036390582]
Quant VideoGen(QVG)は、自動回帰ビデオ拡散モデルのためのトレーニングフリーなKVキャッシュ量子化フレームワークである。
これにより、KVメモリを最大7.0倍に削減できる。
生成品質において、既存のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-02-03T00:54:32Z) - KVSwap: Disk-aware KV Cache Offloading for Long-Context On-device Inference [6.159622195480178]
言語モデル(LM)は、ミーティングやビデオの要約、ドキュメント分析といった、モバイルおよび組み込みAIアプリケーションを支えるものだ。
キー値(KV)キャッシュがコンテキスト長とバッチサイズとともに線形に増加するため、長コンテキスト推論はすぐにメモリキャパシティウォールにヒットする。
KVSwapは、KVキャッシュを非揮発性二次記憶装置(ディスク)にオフロードすることで、このメモリ壁を壊すソフトウェアフレームワークである。
KVSwapは、既存のKVキャッシュオフロード方式と比較して、生成品質を維持しながら、厳しいメモリ予算の下で高いスループットを提供する。
論文 参考訳(メタデータ) (2025-11-14T22:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。