論文の概要: MBench: A Comprehensive Benchmark on Memory Capability for Video World Models
- arxiv url: http://arxiv.org/abs/2606.00793v2
- Date: Mon, 08 Jun 2026 08:58:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:04.683683
- Title: MBench: A Comprehensive Benchmark on Memory Capability for Video World Models
- Title(参考訳): MBench: ビデオワールドモデルのメモリ能力に関する総合ベンチマーク
- Authors: Shengjun Zhang, Zhang Zhang, Simin Huang, Zhenyu Tang, Hanyang Wang, Chensheng Dai, Min Chen, Yifan Li, Yuxin Li, Yingjie Chen, Hao Liu, Chen Li, Jing Lyu, Yueqi Duan,
- Abstract要約: ビデオワールドモデルのメモリ能力の定量化と評価を目的としたベンチマークである textbfMBench を提案する。
我々のベンチマークは、厳密にキュレートされた実写長ビデオに基づいて構築され、ルールベースの量行列とVLMにより評価される。
- 参考スコア(独自算出の注目度): 36.71271805993198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in video-based world models have demonstrated an unprecedented ability to synthesize high-fidelity visual sequences. However, a fundamental gap persists between visually plausible video generation and the functional requirements of a world model, particularly in maintaining a stable and reasonable internal state over extended temporal horizons. While existing benchmarks primarily emphasize visual quality, motion coherence, and text-video alignment, they largely overlook memory, the core capability of a world model to preserve consistency across long-term horizons and complex interactions. To address this gap, we present \textbf{MBench}, a comprehensive benchmark dedicated to quantifying and evaluating the memory capability of video world models. We systematically decompose the memory capability of video world models into three hierarchical and complementary core dimensions: entity consistency, environment consistency, and causal consistency, which are further refined into 12 quantifiable sub-dimensions for comprehensive characterization of long-term memory. Our benchmark is built upon rigorously curated real-captured long videos, and evaluated by rule-based quantitative matrices and VLM to enable objective and comprehensive consistency assessment. Extensive evaluations of mainstream state-of-the-art video world models reveal critical systemic limitations of existing methods in long-term state retention, providing a standardized benchmark and clear research direction to advance the field.
- Abstract(参考訳): ビデオベースの世界モデルの最近の進歩は、高忠実度ビジュアルシーケンスを合成する前例のない能力を示している。
しかし、視覚的に可視な映像生成と世界モデルの機能要件の間には、特に時間的地平線を超えて安定かつ合理的な内部状態を維持するための根本的なギャップが持続する。
既存のベンチマークは主に視覚的品質、モーションコヒーレンス、テキスト・ビデオのアライメントを強調しているが、それらは主にメモリを見落としている。
このギャップに対処するため、ビデオワールドモデルのメモリ能力の定量化と評価を目的とした総合的なベンチマークである「textbf{MBench}」を提示する。
我々は,ビデオワールドモデルのメモリ能力を,エンティティ一貫性,環境整合性,因果整合性の3つの階層的・相補的なコア次元に体系的に分解し,長期記憶の包括的特徴付けのために,さらに12個の定量化サブ次元に改良した。
我々のベンチマークは、厳密にキュレートされた実写長ビデオに基づいて構築され、ルールベースの量行列とVLMを用いて、客観的かつ包括的な整合性評価を可能にする。
主流の最先端ビデオワールドモデルの広範囲な評価により、長期的な状態維持における既存手法のシステム的限界が明らかとなり、標準化されたベンチマークと、フィールドを前進させるための明確な研究方向が提供される。
関連論文リスト
- Long-CODE: Isolating Pure Long-Context as an Orthogonal Dimension in Video Evaluation [16.64717198652712]
長いビデオのメトリクスは、短いビデオアセスメントから切り離すべきである、と我々は主張する。
本稿では,一連の長ビデオ属性汚損検査と,ショットダイナミックスに基づく新しい長ビデオメトリクスを提案する。
提案手法は,人間の判断と最先端の相関性を実現する。
論文 参考訳(メタデータ) (2026-04-19T13:17:34Z) - Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory [53.39687409541093]
Matrix-Game 3.0は、720pのリアルタイムビデオ生成用に設計されたメモリ拡張型インタラクティブワールドモデルである。
データ、モデル、推論にまたがる体系的な改善を導入する。
実験結果から, Matrix-Game 3.0は最大40FPSのリアルタイム生成を実現し, 5Bモデルで720pの解像度を実現した。
論文 参考訳(メタデータ) (2026-04-10T06:00:09Z) - INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling [44.09983529522167]
INSPATIO-WORLDは、単一のビデオから高忠実なインタラクティブなシーンを復元し、生成できる新しいリアルタイムフレームワークである。
Implicit Spatiotemporal Cacheは参照と過去の観測結果を潜在世界表現に集約する。
Explicit Space Constraint Moduleは幾何学的構造を強制し、ユーザのインタラクションを正確かつ物理的に可視なカメラ軌道に変換する。
論文 参考訳(メタデータ) (2026-04-08T15:31:22Z) - Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory [101.2076718776139]
複雑な実環境において,1000フレーム以上のコヒーレントな視覚記憶を維持することのできる,堅牢な対話型世界モデルを提案する。
我々は,歴史的潜水剤を固定予算の幾何学的表現に蒸留するpose-free Memory (HPMC)を導入する。
また,連続動作を三状態論理に識別する不確実性認識型アクションラベルモジュールを提案する。
論文 参考訳(メタデータ) (2026-02-02T17:52:56Z) - TeleWorld: Towards Dynamic Multimodal Synthesis with a 4D World Model [53.555353366322464]
我々は,映像生成,動的シーン再構成,長期記憶をクローズドループシステム内で統合するリアルタイム多モード4DワールドモデリングフレームワークTeleWorldを提案する。
提案手法は,動的オブジェクトモデリングと静的シーン表現のシームレスな統合を実現し,現実的でインタラクティブで計算可能な合成システムに向けて世界モデルを推し進める。
論文 参考訳(メタデータ) (2025-12-31T18:31:46Z) - WorldPack: Compressed Memory Improves Spatial Consistency in Video World Modeling [42.52474988220278]
効率的な圧縮メモリを備えたビデオワールドモデルであるWorldPackを提案する。
WorldPackは、長期世代における空間的一貫性、忠実度、品質を著しく改善する。
パフォーマンスはMinecraftのベンチマークであるLoopNavで評価されています。
論文 参考訳(メタデータ) (2025-12-02T07:06:23Z) - Video World Models with Long-term Spatial Memory [110.530715838396]
本稿では,ビデオワールドモデルの長期的整合性を高める新しい枠組みを提案する。
我々のフレームワークは、長期空間記憶から情報を保存・取得する機構を含んでいる。
評価の結果,関連するベースラインに比べて品質,一貫性,コンテキスト長が向上した。
論文 参考訳(メタデータ) (2025-06-05T17:42:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。