論文の概要: Wow, wo, val! A Comprehensive Embodied World Model Evaluation Turing Test
- arxiv url: http://arxiv.org/abs/2601.04137v1
- Date: Wed, 07 Jan 2026 17:50:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.224395
- Title: Wow, wo, val! A Comprehensive Embodied World Model Evaluation Turing Test
- Title(参考訳): Wow, wo, val! 包括的世界モデル評価チューリングテスト
- Authors: Chun-Kai Fan, Xiaowei Chi, Xiaozhu Ju, Hao Li, Yong Bao, Yu-Kai Wang, Lizhang Chen, Zhiyuan Jiang, Kuangzhi Ge, Ying Li, Weishi Mi, Qingpo Wuwu, Peidong Jia, Yulin Luo, Kevin Zhang, Zhiyuan Qin, Yong Dai, Sirui Han, Yike Guo, Shanghang Zhang, Jian Tang,
- Abstract要約: 我々は、Embodied Turing Testベンチマーク: WoW-World-Eval (Wow,wo,val)を紹介する。
Wow-wo-valは知覚、計画、予測、一般化、実行の5つのコア能力を調べる。
Inverse Dynamic Model Turing Testでは、まずIMMを用いて、実世界におけるビデオ基盤モデルの実行精度を評価する。
- 参考スコア(独自算出の注目度): 62.17144846428715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As world models gain momentum in Embodied AI, an increasing number of works explore using video foundation models as predictive world models for downstream embodied tasks like 3D prediction or interactive generation. However, before exploring these downstream tasks, video foundation models still have two critical questions unanswered: (1) whether their generative generalization is sufficient to maintain perceptual fidelity in the eyes of human observers, and (2) whether they are robust enough to serve as a universal prior for real-world embodied agents. To provide a standardized framework for answering these questions, we introduce the Embodied Turing Test benchmark: WoW-World-Eval (Wow,wo,val). Building upon 609 robot manipulation data, Wow-wo-val examines five core abilities, including perception, planning, prediction, generalization, and execution. We propose a comprehensive evaluation protocol with 22 metrics to assess the models' generation ability, which achieves a high Pearson Correlation between the overall score and human preference (>0.93) and establishes a reliable foundation for the Human Turing Test. On Wow-wo-val, models achieve only 17.27 on long-horizon planning and at best 68.02 on physical consistency, indicating limited spatiotemporal consistency and physical reasoning. For the Inverse Dynamic Model Turing Test, we first use an IDM to evaluate the video foundation models' execution accuracy in the real world. However, most models collapse to $\approx$ 0% success, while WoW maintains a 40.74% success rate. These findings point to a noticeable gap between the generated videos and the real world, highlighting the urgency and necessity of benchmarking World Model in Embodied AI.
- Abstract(参考訳): Embodied AIで世界モデルが勢いを増すにつれ、ビデオ基礎モデルを3D予測やインタラクティブな生成といった下流の具体化タスクの予測的世界モデルとして利用する研究が増えている。
しかし、これらの下流タスクを探索する前には、ビデオファンデーションモデルは、(1)その生成的一般化が人間の目における知覚的忠実性を維持するのに十分であるかどうか、(2)現実世界のエンボディドエージェントの普遍的な先駆体として機能するほど堅牢であるかどうか、という2つの重要な疑問がある。
これらの質問に答えるための標準化されたフレームワークを提供するために、Embodied Turing Testベンチマーク: WoW-World-Eval (Wow,wo,val)を紹介します。
609個のロボット操作データに基づいて、Wow-wo-valは知覚、計画、予測、一般化、実行の5つのコア能力を調べる。
モデル生成能力を評価するため,22の指標を用いた総合的評価プロトコルを提案し,総合スコアと人選好のピアソン相関(>0.93)を達成し,人間のチューリングテストのための信頼性の高い基盤を確立する。
Wow-wo-valでは、長い水平プランニングで17.27、物理的一貫性で68.02しか達成できず、時空間の一貫性と物理的推論が制限されている。
Inverse Dynamic Model Turing Testでは、まずIMMを用いて、実世界におけるビデオ基盤モデルの実行精度を評価する。
しかし、ほとんどのモデルは$\approx$0%の成功に崩壊し、WoWは40.74%の成功率を維持している。
これらの発見は、生成されたビデオと現実世界の間に顕著なギャップがあることを示し、Embodied AIでWorld Modelをベンチマークする緊急性と必要性を強調している。
関連論文リスト
- WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World [100.68103378427567]
エージェントは現実的な4D駆動環境を合成し、説得力があるように見えるが、物理的または行動的に失敗することが多い。
モデルがどのように構築され、理解され、その生成された世界の中でどのように振る舞うかを評価するフルスペクトルベンチマークであるWorldLensを紹介します。
さらに、数値的なスコアとテキストの合理性を備えた人間の注釈付きビデオの大規模データセット WorldLens-26K を構築し、WorldLens-Agent を開発した。
論文 参考訳(メタデータ) (2025-12-11T18:59:58Z) - A Comprehensive Survey on World Models for Embodied AI [14.457261562275121]
エンボディードAIは、アクションがどのように将来の世界国家を形作るかを理解し、行動し、予測するエージェントを必要とする。
この調査は、組み込みAIにおける世界モデルのための統一されたフレームワークを示す。
論文 参考訳(メタデータ) (2025-10-19T07:12:32Z) - WorldPrediction: A Benchmark for High-level World Modeling and Long-horizon Procedural Planning [52.36434784963598]
我々は、異なるAIモデルのワールドモデリングと手続き計画能力を評価するためのビデオベースのベンチマークであるWorldPredictionを紹介する。
現在のフロンティアモデルでは,WorldPrediction-WMでは57%,WorldPrediction-PPでは38%の精度しか達成できないが,人間は両タスクを完璧に解くことができる。
論文 参考訳(メタデータ) (2025-06-04T18:22:40Z) - VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness [74.17234924159108]
本稿では,本質的な忠実度を示すビデオ生成モデルを評価するためのベンチマークであるVBench-2.0を紹介する。
VBench-2.0は、人間の忠実さ、コントロール可能性、創造性、物理学、コモンセンスの5つの重要な次元を評価している。
我々は、人間の判断に一致した評価を確保するために、広範囲な人間のアノテーションを実行します。
論文 参考訳(メタデータ) (2025-03-27T17:57:01Z) - WorldModelBench: Judging Video Generation Models As World Models [57.776769550453594]
ビデオ生成モデルは急速に進歩し、ロボット工学や自動運転といった意思決定アプリケーションをサポートするビデオワールドモデルとしての地位を確立している。
現在のベンチマークでは、これらの主張を厳格に評価することができず、一般的なビデオ品質にのみ焦点が当てられている。
アプリケーション駆動ドメインにおけるビデオ生成モデルのワールドモデリング能力を評価するためのベンチマークであるWorldModelBenchを提案する。
論文 参考訳(メタデータ) (2025-02-28T03:58:23Z) - WorldSimBench: Towards Video Generation Models as World Simulators [79.69709361730865]
我々は、予測モデルの機能を階層に分類し、WorldSimBenchと呼ばれる2つの評価フレームワークを提案することにより、World Simulatorの評価の第一歩を踏み出す。
WorldSimBenchにはExplicit Perceptual EvaluationとImplicit Manipulative Evaluationが含まれている。
我々の総合的な評価は、ビデオ生成モデルのさらなる革新を促進する重要な洞察を与え、World Simulatorsをエンボディされた人工知能への重要な進歩と位置づけている。
論文 参考訳(メタデータ) (2024-10-23T17:56:11Z) - Sapiens: Foundation for Human Vision Models [14.72839332332364]
サピエンス(Sapiens)は、4つの基本的人間中心の視覚タスクのモデル群である。
我々のモデルは1Kの高分解能推論をサポートし、個々のタスクに容易に適応できる。
我々は、人間の画像のキュレートされたデータセット上での自己教師付き事前訓練が、多種多様な人間中心のタスクのパフォーマンスを著しく向上させるのを観察する。
論文 参考訳(メタデータ) (2024-08-22T17:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。