論文の概要: Is Your Driving World Model an All-Around Player?
- arxiv url: http://arxiv.org/abs/2605.10858v1
- Date: Mon, 11 May 2026 17:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:51.021183
- Title: Is Your Driving World Model an All-Around Player?
- Title(参考訳): ドライビングワールドはオールアラウンドプレイヤーか?
- Authors: Lingdong Kong, Ao Liang, Tianyi Yan, Hongsi Liu, Wesley Yang, Ziqi Huang, Xian Sun, Wei Yin, Jialong Zuo, Yixuan Hu, Dekai Zhu, Dongyue Lu, Youquan Liu, Guangfeng Jiang, Linfeng Li, Xiangtai Li, Long Zhuo, Lai Xing Ng, Benoit R. Cottereau, Changxin Gao, Liang Pan, Wei Tsang Ooi, Ziwei Liu,
- Abstract要約: We introduced WorldLens, a unified benchmark that measure world-model fidelity across the full spectrum。
6つの代表モデルについて評価したところ、既存のアプローチがすべての軸にわたって支配的でないことが判明した。
アルゴリズムのメトリクスを人間の知覚でブリッジするために、26,808エントリの人間注釈付き嗜好データセットであるWorldLens-26Kをコントリビュートする。
- 参考スコア(独自算出の注目度): 107.28582946012818
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Today's driving world models can generate remarkably realistic dash-cam videos, yet no single model excels universally. Some generate photorealistic textures but violate basic physics; others maintain geometric consistency but fail when subjected to closed-loop planning. This disconnect exposes a critical gap: the field evaluates how real generated worlds appear, but rarely whether they behave realistically. We introduce WorldLens, a unified benchmark that measures world-model fidelity across the full spectrum, from pixel quality and 4D geometry to closed-loop driving and human perceptual alignment, through five complementary aspects and 24 standardized dimensions. Our evaluation of six representative models reveals that no existing approach dominates across all axes: texture-rich models violate geometry, geometry-aware models lack behavioral fidelity, and even the strongest performers achieve only 2-3 out of 10 on human realism ratings. To bridge algorithmic metrics with human perception, we further contribute WorldLens-26K, a 26,808-entry human-annotated preference dataset pairing numerical scores with textual rationales, and WorldLens-Agent, a vision-language evaluator distilled from these judgments that enables scalable, explainable auto-assessment. Together, the benchmark, dataset, and agent form a unified ecosystem for assessing generated worlds not merely by visual appeal, but by physical and behavioral fidelity.
- Abstract(参考訳): 今日のドライビングワールドモデルは、驚くほどリアルなダッシュカムビデオを生成することができます。
フォトリアリスティックなテクスチャを生成するものもあれば、基本的な物理学に反するものもあれば、幾何的な整合性を維持するものもあるが、閉ループ計画に従えば失敗するものもある。
フィールドは実際の生成した世界がどのように現れるかを評価するが、現実的に振る舞うかどうかは滅多にない。
We introduced WorldLens, a unified benchmark that a world-model fidelity across the full spectrum, from pixel quality and 4D geometry, to closed-loop driving and human perceptual alignment, through five complementary aspects and 24 standardized dimensions。
テクスチャに富んだモデルは幾何に反し、幾何学を意識したモデルは振舞いの忠実さを欠き、最強のパフォーマーでさえ人間のリアリズム評価において10点中2-3点しか達成していない。
人間の知覚とアルゴリズムのメトリクスを橋渡しするために,26,808エントリの人間の注釈付き嗜好データセットであるWorldLens-26Kと,これらの判断から抽出された視覚言語評価器であるWorldLens-Agentが,スケーラブルで説明可能な自己評価を可能にする。
ベンチマーク、データセット、エージェントは、視覚的魅力だけでなく、物理的および行動的忠実さによって生成された世界を評価するための統一されたエコシステムを形成する。
関連論文リスト
- WorldArena: A Unified Benchmark for Evaluating Perception and Functional Utility of Embodied World Models [114.95269118652163]
We introduced WorldArena, an unified benchmark designed for embodied world model across both perceptual and functional dimensions。
WorldArenaは、6つのサブ次元にまたがって16のメトリクスで測定されたビデオ知覚品質、データエンジンとして世界モデルを評価する実施されたタスク機能、ポリシー評価ツール、主観的な人間の評価と統合されたアクションプランナーの3つの次元でモデルを評価する。
14の代表的なモデルに対する広範囲な実験を通して、視覚的品質が必ずしも強い具体的タスク能力に変換されるとは限らないことを示す、重要な知覚-機能的ギャップを明らかにする。
論文 参考訳(メタデータ) (2026-02-09T18:09:20Z) - From Generative Engines to Actionable Simulators: The Imperative of Physical Grounding in World Models [4.52033729546524]
世界モデルは、アクションの下で環境がどのように進化するかをシミュレートするAIシステムである。
現在の世界モデルは、高忠実度ビデオ生成が物理的および因果的ダイナミクスの理解を意味するという誤った仮定である。
現代のモデルはピクセルの予測に優れていますが、しばしば不変の制約に違反し、介入の下で失敗し、安全クリティカルな意思決定を断ち切ることを示しています。
論文 参考訳(メタデータ) (2026-01-21T23:35:33Z) - Wow, wo, val! A Comprehensive Embodied World Model Evaluation Turing Test [62.17144846428715]
我々は、Embodied Turing Testベンチマーク: WoW-World-Eval (Wow,wo,val)を紹介する。
Wow-wo-valは知覚、計画、予測、一般化、実行の5つのコア能力を調べる。
Inverse Dynamic Model Turing Testでは、まずIMMを用いて、実世界におけるビデオ基盤モデルの実行精度を評価する。
論文 参考訳(メタデータ) (2026-01-07T17:50:37Z) - WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World [100.68103378427567]
エージェントは現実的な4D駆動環境を合成し、説得力があるように見えるが、物理的または行動的に失敗することが多い。
モデルがどのように構築され、理解され、その生成された世界の中でどのように振る舞うかを評価するフルスペクトルベンチマークであるWorldLensを紹介します。
さらに、数値的なスコアとテキストの合理性を備えた人間の注釈付きビデオの大規模データセット WorldLens-26K を構築し、WorldLens-Agent を開発した。
論文 参考訳(メタデータ) (2025-12-11T18:59:58Z) - 4DWorldBench: A Comprehensive Evaluation Framework for 3D/4D World Generation Models [29.06964332825464]
次世代マルチモーダル・インテリジェンス・システムの基盤として、次世代モデルが登場しつつある。
World Modelsは、画像、ビデオ、テキストからリアルでダイナミックで物理的に一貫した3D/4Dワールドを構築することを目的としている。
4DWorldBenchは,知覚品質,条件4Dアライメント,物理リアリズム,4D一貫性の4つの重要な次元でモデルを測定する。
論文 参考訳(メタデータ) (2025-11-25T02:05:35Z) - WorldModelBench: Judging Video Generation Models As World Models [57.776769550453594]
ビデオ生成モデルは急速に進歩し、ロボット工学や自動運転といった意思決定アプリケーションをサポートするビデオワールドモデルとしての地位を確立している。
現在のベンチマークでは、これらの主張を厳格に評価することができず、一般的なビデオ品質にのみ焦点が当てられている。
アプリケーション駆動ドメインにおけるビデオ生成モデルのワールドモデリング能力を評価するためのベンチマークであるWorldModelBenchを提案する。
論文 参考訳(メタデータ) (2025-02-28T03:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。