論文の概要: Out of Sight, Out of Mind? Evaluating State Evolution in Video World Models
- arxiv url: http://arxiv.org/abs/2603.13215v1
- Date: Fri, 13 Mar 2026 17:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.231344
- Title: Out of Sight, Out of Mind? Evaluating State Evolution in Video World Models
- Title(参考訳): 視界外、心外? : ビデオワールドモデルにおける状態進化の評価
- Authors: Ziqi Ma, Mengzhan Liufu, Georgia Gkioxari,
- Abstract要約: ビデオワールドモデルは、2Dフレームの観察を通して「世界」を生成する。
これらの「世界」は、観測に関係なく進化できるのか?
我々は、ビデオワールドモデルが観察から状態の進化を分離できるかどうかを評価するためのベンチマークを設計する。
- 参考スコア(独自算出の注目度): 6.61410412721144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evolutions in the world, such as water pouring or ice melting, happen regardless of being observed. Video world models generate "worlds" via 2D frame observations. Can these generated "worlds" evolve regardless of observation? To probe this question, we design a benchmark to evaluate whether video world models can decouple state evolution from observation. Our benchmark, STEVO-Bench, applies observation control to evolving processes via instructions of occluder insertion, turning off the light, or specifying camera "lookaway" trajectories. By evaluating video models with and without camera control for a diverse set of naturally-occurring evolutions, we expose their limitations in decoupling state evolution from observation. STEVO-Bench proposes an evaluation protocol to automatically detect and disentangle failure modes of video world models across key aspects of natural state evolution. Analysis of STEVO-Bench results provide new insight into potential data and architecture bias of present-day video world models. Project website: https://glab-caltech.github.io/STEVOBench/. Blog: https://ziqi-ma.github.io/blog/2026/outofsight/
- Abstract(参考訳): 水や氷の融解といった世界の進化は、観察されるにも拘わらず起こる。
ビデオワールドモデルは、2Dフレームの観察を通して「世界」を生成する。
これらの「世界」は、観測に関係なく進化できるのか?
そこで本研究では,ビデオワールドモデルが状態の進化を観測から切り離すことができるかどうかを評価するためのベンチマークを設計した。
我々のベンチマークであるSTEVO-Benchは、オクルーダー挿入の指示、光の消灯、カメラの「見晴らし」軌跡の特定を通じて、進化するプロセスに観察制御を適用した。
自然発生進化の多様なセットに対して,映像モデルとカメラ制御を併用して評価することにより,観察から状態進化を分離する際の限界を明らかにする。
STEVO-Benchは、自然状態の進化の重要な側面を越えて、ビデオワールドモデルの障害モードを自動的に検出し、アンタングルする評価プロトコルを提案する。
STEVO-Benchの結果の分析は、現在のビデオワールドモデルの潜在的なデータとアーキテクチャバイアスに関する新たな洞察を提供する。
プロジェクトサイト: https://glab-caltech.github.io/STEVOBench/。
ブログ:https://ziqi-ma.github.io/blog/2026/outofsight/
関連論文リスト
- LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models [32.92934803081681]
近年の世代別ビデオワールドモデルは、視覚環境の進化をシミュレートすることを目的としており、観察者はカメラ制御によってシーンをインタラクティブに探索することができる。
彼らは、世界は観察者の視野内でしか進化しないと暗黙的に仮定している。
オブジェクトがオブザーバの視点を離れると、その状態はメモリ内で"凍結"され、その後同じ領域を再考しても、その間に発生すべき出来事を反映できないことがしばしばある。
永続的な世界進化をサポートするために,ビデオワールドモデルを拡張する新しいフレームワークであるLiveWorldを提案する。
論文 参考訳(メタデータ) (2026-03-07T10:31:39Z) - RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space [51.441415833480505]
RAYNOVAは、二重因果自己回帰フレームワークを使用するシナリオを駆動するための多視点世界モデルである。
相対的なシャーカー線位置符号化に基づいて、ビュー、フレーム、スケールにまたがる等方的時間的表現を構築する。
論文 参考訳(メタデータ) (2026-02-24T08:41:40Z) - Simulating the Visual World with Artificial Intelligence: A Roadmap [48.64639618440864]
ビデオ生成は、視覚的に魅力的なクリップを生成するものから、インタラクションをサポートし、物理的な可視性を維持する仮想環境を構築するものへとシフトしている。
この調査は、この進化の体系的な概要を提供し、現代のビデオ基盤モデルを2つのコアコンポーネントの組み合わせとして概念化した。
4世代にわたる映像生成の進展を追究し,本質的な物理的妥当性を具現化した映像生成モデルを構築した。
論文 参考訳(メタデータ) (2025-11-11T18:59:50Z) - Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark [124.00111584020834]
我々は、ビデオモデルがゼロショット推論器として機能する準備が整っているかどうかを実証研究する。
私たちは、人気の高いVeo-3に注力しています。
我々は,空間的,幾何学的,物理的,時間的,具体的論理を含む12次元にわたる推論行動を評価する。
論文 参考訳(メタデータ) (2025-10-30T17:59:55Z) - Owl-1: Omni World Model for Consistent Long Video Generation [75.51378346789626]
Omni World ModeL (Owl-1) を提案する。
Owl-1 は VBench-I2V と VBench-Long の SOTA メソッドと同等の性能を実現している。
論文 参考訳(メタデータ) (2024-12-12T18:59:01Z) - How Far is Video Generation from World Model: A Physical Law Perspective [101.24278831609249]
OpenAIのSoraは、物理法則に準拠した世界モデルを開発するためのビデオ生成の可能性を強調している。
しかし、ビデオ生成モデルが人間の先行しない視覚データから純粋にそのような法則を発見する能力に疑問を投げかけることができる。
本研究は,3つの主要なシナリオ – 分布内,分布外,一般化 – について評価する。
論文 参考訳(メタデータ) (2024-11-04T18:53:05Z) - EVA: An Embodied World Model for Future Video Anticipation [30.721105710709008]
ビデオ生成モデルは将来の状態をシミュレートする上で大きな進歩を遂げており、擬似シナリオにおける世界シミュレータとしての可能性を示している。
既存のモデルは、しばしば堅牢な理解が欠如しており、マルチステップの予測を実行したり、アウト・オブ・ディストリビューション(OOD)シナリオを処理する能力を制限する。
本稿では,映像予測の強化を目的とした中間的推論手法であるリフレクション・オブ・ジェネレーション(RoG)を提案する。
論文 参考訳(メタデータ) (2024-10-20T18:24:00Z) - Neural World Models for Computer Vision [2.741266294612776]
深層ニューラルネットワークによってパラメータ化された世界モデルと政策をトレーニングするためのフレームワークを提案する。
我々は、幾何学、意味論、動きといった重要なコンピュータビジョンの概念を活用して、複雑な都市運転シーンに世界モデルを拡張する。
都会の運転環境における静的シーン, 動的シーン, エゴビヘイビアを共同で予測できる。
論文 参考訳(メタデータ) (2023-06-15T14:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。