論文の概要: Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models
- arxiv url: http://arxiv.org/abs/2603.25716v1
- Date: Thu, 26 Mar 2026 17:56:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.416608
- Title: Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models
- Title(参考訳): Out of Sight but Not Out of Mind: 動的ビデオワールドモデルのためのハイブリッドメモリ
- Authors: Kaijin Chen, Dingkang Liang, Xin Zhou, Yikang Ding, Xiaoqiang Liu, Pengfei Wan, Xiang Bai,
- Abstract要約: 静的な背景の正確なアーキビストとしてモデルが同時に機能することを必要とする新しいパラダイムであるHybrid Memoryを紹介する。
HM-Worldは、ハイブリッドメモリに特化した最初の大規模ビデオデータセットである。
提案手法は, 動的主観的整合性と全体の生成品質の両方において, 最先端のアプローチを著しく上回っている。
- 参考スコア(独自算出の注目度): 56.44348799741838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video world models have shown immense potential in simulating the physical world, yet existing memory mechanisms primarily treat environments as static canvases. When dynamic subjects hide out of sight and later re-emerge, current methods often struggle, leading to frozen, distorted, or vanishing subjects. To address this, we introduce Hybrid Memory, a novel paradigm requiring models to simultaneously act as precise archivists for static backgrounds and vigilant trackers for dynamic subjects, ensuring motion continuity during out-of-view intervals. To facilitate research in this direction, we construct HM-World, the first large-scale video dataset dedicated to hybrid memory. It features 59K high-fidelity clips with decoupled camera and subject trajectories, encompassing 17 diverse scenes, 49 distinct subjects, and meticulously designed exit-entry events to rigorously evaluate hybrid coherence. Furthermore, we propose HyDRA, a specialized memory architecture that compresses memory into tokens and utilizes a spatiotemporal relevance-driven retrieval mechanism. By selectively attending to relevant motion cues, HyDRA effectively preserves the identity and motion of hidden subjects. Extensive experiments on HM-World demonstrate that our method significantly outperforms state-of-the-art approaches in both dynamic subject consistency and overall generation quality.
- Abstract(参考訳): ビデオワールドモデルは物理世界をシミュレートする大きな可能性を示しているが、既存のメモリメカニズムは主に環境を静的キャンバスとして扱う。
ダイナミックな被写体が視界から姿を消し、後に再び現れるとき、現在の方法はしばしば苦労し、凍った、歪んだ、または消える被写体へと繋がる。
そこで本稿では,静的な背景の正確なアーチビストと動的対象の警戒トラッカーを同時に動作させ,視点外間隔における動きの連続性を確保するための新しいパラダイムであるHybrid Memoryを紹介する。
この方向の研究を容易にするため、ハイブリッドメモリに特化した最初の大規模ビデオデータセットであるHM-Worldを構築した。
59Kの高忠実度クリップとデカップリングカメラと被写体軌跡があり、17の多様なシーン、49の異なる主題、そしてハイブリッドコヒーレンスを厳格に評価する厳密なデザインの出口イベントを含んでいる。
さらに,メモリをトークンに圧縮する専用メモリアーキテクチャHyDRAを提案する。
関連する動きの手がかりに選択的に出席することで、HyDRAは隠された被験者のアイデンティティと動きを効果的に保存する。
HM-Worldの大規模実験により,本手法は動的対象の整合性と全体の生成品質の両方において,最先端のアプローチを著しく上回ることを示した。
関連論文リスト
- AGILE: Hand-Object Interaction Reconstruction from Video via Agentic Generation [45.753757870577196]
本稿では,対話学習のためのエージェント生成にパラダイムを転換する,堅牢なフレームワークAGILEを紹介する。
我々はAGILEがグローバルな幾何学的精度でベースラインを上回り、先行技術が頻繁に崩壊する挑戦的なシーケンスに対して、例外的な堅牢性を証明していることを示す。
論文 参考訳(メタデータ) (2026-02-04T15:42:58Z) - TeleWorld: Towards Dynamic Multimodal Synthesis with a 4D World Model [53.555353366322464]
我々は,映像生成,動的シーン再構成,長期記憶をクローズドループシステム内で統合するリアルタイム多モード4DワールドモデリングフレームワークTeleWorldを提案する。
提案手法は,動的オブジェクトモデリングと静的シーン表現のシームレスな統合を実現し,現実的でインタラクティブで計算可能な合成システムに向けて世界モデルを推し進める。
論文 参考訳(メタデータ) (2025-12-31T18:31:46Z) - Prismatic World Model: Learning Compositional Dynamics for Planning in Hybrid Systems [38.4555621948915]
Prismatic World Model (PRISM-WM) は複雑なハイブリッド力学を構成可能なプリミティブに分解するように設計されている。
PRISM-WMは系力学におけるシャープモード遷移を正確にモデル化することでロールアウトドリフトを著しく低減する。
論文 参考訳(メタデータ) (2025-12-09T09:40:34Z) - VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space Memory [42.2374676860638]
自己回帰(AR)拡散は、フレームを因果的に生成することで、ストリーミングでインタラクティブな長ビデオ生成を可能にする。
微小スケールの地平線上でのコヒーレンスを維持することは、蓄積したエラー、動きのドリフト、およびコンテンツ反復のために依然として困難である。
我々は、AR拡散をハイブリッドな状態空間メモリと統合する長ビデオモデルVideoSSMを提案する。
論文 参考訳(メタデータ) (2025-12-04T07:06:02Z) - RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z) - Mem4D: Decoupling Static and Dynamic Memory for Dynamic Scene Reconstruction [17.587320705104343]
静的幾何学と動的運動のモデリングを分離する新しいフレームワークを提案する。
Mem4Dは、グローバルな整合性を持つ静的幾何学を同時に維持し、高忠実度で動的要素を再構成する。
論文 参考訳(メタデータ) (2025-08-11T12:23:31Z) - Video World Models with Long-term Spatial Memory [110.530715838396]
本稿では,ビデオワールドモデルの長期的整合性を高める新しい枠組みを提案する。
我々のフレームワークは、長期空間記憶から情報を保存・取得する機構を含んでいる。
評価の結果,関連するベースラインに比べて品質,一貫性,コンテキスト長が向上した。
論文 参考訳(メタデータ) (2025-06-05T17:42:34Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。