論文の概要: WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World
- arxiv url: http://arxiv.org/abs/2512.10958v1
- Date: Thu, 11 Dec 2025 18:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.584884
- Title: WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World
- Title(参考訳): WorldLens:実世界における運転世界モデルのフルスペクトル評価
- Authors: Ao Liang, Lingdong Kong, Tianyi Yan, Hongsi Liu, Wesley Yang, Ziqi Huang, Wei Yin, Jialong Zuo, Yixuan Hu, Dekai Zhu, Dongyue Lu, Youquan Liu, Guangfeng Jiang, Linfeng Li, Xiangtai Li, Long Zhuo, Lai Xing Ng, Benoit R. Cottereau, Changxin Gao, Liang Pan, Wei Tsang Ooi, Ziwei Liu,
- Abstract要約: エージェントは現実的な4D駆動環境を合成し、説得力があるように見えるが、物理的または行動的に失敗することが多い。
モデルがどのように構築され、理解され、その生成された世界の中でどのように振る舞うかを評価するフルスペクトルベンチマークであるWorldLensを紹介します。
さらに、数値的なスコアとテキストの合理性を備えた人間の注釈付きビデオの大規模データセット WorldLens-26K を構築し、WorldLens-Agent を開発した。
- 参考スコア(独自算出の注目度): 100.68103378427567
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generative world models are reshaping embodied AI, enabling agents to synthesize realistic 4D driving environments that look convincing but often fail physically or behaviorally. Despite rapid progress, the field still lacks a unified way to assess whether generated worlds preserve geometry, obey physics, or support reliable control. We introduce WorldLens, a full-spectrum benchmark evaluating how well a model builds, understands, and behaves within its generated world. It spans five aspects -- Generation, Reconstruction, Action-Following, Downstream Task, and Human Preference -- jointly covering visual realism, geometric consistency, physical plausibility, and functional reliability. Across these dimensions, no existing world model excels universally: those with strong textures often violate physics, while geometry-stable ones lack behavioral fidelity. To align objective metrics with human judgment, we further construct WorldLens-26K, a large-scale dataset of human-annotated videos with numerical scores and textual rationales, and develop WorldLens-Agent, an evaluation model distilled from these annotations to enable scalable, explainable scoring. Together, the benchmark, dataset, and agent form a unified ecosystem for measuring world fidelity -- standardizing how future models are judged not only by how real they look, but by how real they behave.
- Abstract(参考訳): エージェントは現実的な4D駆動環境を合成し、説得力があるように見えるが、物理的または行動的に失敗することが多い。
急速な進歩にもかかわらず、生成した世界が幾何を保存するか、物理学に従うか、あるいは信頼できる制御をサポートするかを評価する統一的な方法がまだ存在しない。
モデルがどのように構築され、理解され、その生成された世界の中でどのように振る舞うかを評価するフルスペクトルベンチマークであるWorldLensを紹介します。
生成、再構成、アクションフォロー、ダウンストリームタスク、ヒューマン優先度の5つの側面にまたがっており、視覚リアリズム、幾何学的一貫性、物理的妥当性、機能的信頼性を共同でカバーしている。
強いテクスチャを持つものはしばしば物理学に反するが、幾何学的に安定なモデルは行動の忠実さを欠いている。
客観的な指標を人間の判断と整合させるため,数値スコアとテキスト合理性を備えた大規模人間のアノテーション付きビデオのデータセット WorldLens-26K を構築し,これらのアノテーションから抽出した評価モデル WorldLens-Agent を開発し,スケーラブルで説明可能なスコアを実現する。
ベンチマーク、データセット、エージェントは共に、世界の忠実度を測定するための統一されたエコシステムを形成します。
関連論文リスト
- WorldArena: A Unified Benchmark for Evaluating Perception and Functional Utility of Embodied World Models [114.95269118652163]
We introduced WorldArena, an unified benchmark designed for embodied world model across both perceptual and functional dimensions。
WorldArenaは、6つのサブ次元にまたがって16のメトリクスで測定されたビデオ知覚品質、データエンジンとして世界モデルを評価する実施されたタスク機能、ポリシー評価ツール、主観的な人間の評価と統合されたアクションプランナーの3つの次元でモデルを評価する。
14の代表的なモデルに対する広範囲な実験を通して、視覚的品質が必ずしも強い具体的タスク能力に変換されるとは限らないことを示す、重要な知覚-機能的ギャップを明らかにする。
論文 参考訳(メタデータ) (2026-02-09T18:09:20Z) - Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks [43.59401259468559]
我々は、ロバストな世界モデルは、能力の緩やかな集まりではなく、相互作用、知覚、象徴的推論、空間的表現を一体的に組み込んだ規範的な枠組みであるべきだと主張する。
この研究は、未来の研究を世界のより一般的で堅牢で原則化されたモデルへと導くことを目的としている。
論文 参考訳(メタデータ) (2026-02-02T04:42:44Z) - WorldBench: Disambiguating Physics for Diagnostic Evaluation of World Models [17.757245394765807]
We introduced WorldBench, a video-based benchmark designed for concept-specific, disentangled evaluation。
WorldBenchは、ビデオ生成と世界モデルの物理的推論能力を厳格に評価するための、より微妙でスケーラブルなフレームワークを提供する。
論文 参考訳(メタデータ) (2026-01-29T05:31:02Z) - Mirage2Matter: A Physically Grounded Gaussian World Model from Video [87.9732484393686]
我々は、グラフィック駆動の世界モデリングおよびシミュレーションフレームワークであるSimulate Anythingを紹介する。
実世界の環境を3次元ガウススプレイティング(3DGS)による写実的シーン表現に再構築する。
次に、生成モデルを利用して、物理的に現実的な表現を復元し、精度校正ターゲットを介してシミュレーション環境に統合する。
論文 参考訳(メタデータ) (2026-01-24T07:43:57Z) - From Generative Engines to Actionable Simulators: The Imperative of Physical Grounding in World Models [4.52033729546524]
世界モデルは、アクションの下で環境がどのように進化するかをシミュレートするAIシステムである。
現在の世界モデルは、高忠実度ビデオ生成が物理的および因果的ダイナミクスの理解を意味するという誤った仮定である。
現代のモデルはピクセルの予測に優れていますが、しばしば不変の制約に違反し、介入の下で失敗し、安全クリティカルな意思決定を断ち切ることを示しています。
論文 参考訳(メタデータ) (2026-01-21T23:35:33Z) - DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving [49.11389494068169]
我々は、生成駆動世界モデルのための最初の総合的なベンチマークであるDrivingGenを提示する。
DrivingGenは、駆動データセットとインターネットスケールのビデオソースの両方から収集されたさまざまな評価データセットを組み合わせる。
一般的なモデルは良く見えるが物理を破るが、運転に特化したものは現実的に動きを捉えているが、視界の質は遅れている。
論文 参考訳(メタデータ) (2026-01-04T13:36:21Z) - 4DWorldBench: A Comprehensive Evaluation Framework for 3D/4D World Generation Models [29.06964332825464]
次世代マルチモーダル・インテリジェンス・システムの基盤として、次世代モデルが登場しつつある。
World Modelsは、画像、ビデオ、テキストからリアルでダイナミックで物理的に一貫した3D/4Dワールドを構築することを目的としている。
4DWorldBenchは,知覚品質,条件4Dアライメント,物理リアリズム,4D一貫性の4つの重要な次元でモデルを測定する。
論文 参考訳(メタデータ) (2025-11-25T02:05:35Z) - A Step Toward World Models: A Survey on Robotic Manipulation [58.8419978790227]
本稿では,ロボット操作の手法のレビューを通じて,世界モデルのコア機能を示すアプローチについて考察する。
我々は、認識、予測、制御にまたがる役割を分析し、主要な課題と解決策を特定し、完全に実現された世界モデルが持つべきコアコンポーネント、能力、機能を蒸留する。
論文 参考訳(メタデータ) (2025-10-31T00:57:24Z) - Clone Deterministic 3D Worlds with Geometrically-Regularized World Models [16.494281967592745]
エージェントが複雑でダイナミックな設定で効果的に思考、計画、理性を実現するためには、世界モデルが不可欠である。
急速な進歩にもかかわらず、現在の世界モデルは、長い地平線上で不安定で劣化している。
本稿では, 自然な知覚軌道に沿った連続点が潜在表現空間に近接しているような幾何学的正規化世界モデル(GRWM)を提案する。
論文 参考訳(メタデータ) (2025-10-30T17:56:43Z) - A Comprehensive Survey on World Models for Embodied AI [14.457261562275121]
エンボディードAIは、アクションがどのように将来の世界国家を形作るかを理解し、行動し、予測するエージェントを必要とする。
この調査は、組み込みAIにおける世界モデルのための統一されたフレームワークを示す。
論文 参考訳(メタデータ) (2025-10-19T07:12:32Z) - AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability [84.52205243353761]
最近の研究は、世界モデルを使用して、AIエージェントをデプロイ前にテストできる制御された仮想環境を生成することを提案する。
評価対象のAIエージェントに非依存な世界モデルを簡単にする方法を検討する。
論文 参考訳(メタデータ) (2025-04-06T20:35:44Z) - WorldSimBench: Towards Video Generation Models as World Simulators [79.69709361730865]
我々は、予測モデルの機能を階層に分類し、WorldSimBenchと呼ばれる2つの評価フレームワークを提案することにより、World Simulatorの評価の第一歩を踏み出す。
WorldSimBenchにはExplicit Perceptual EvaluationとImplicit Manipulative Evaluationが含まれている。
我々の総合的な評価は、ビデオ生成モデルのさらなる革新を促進する重要な洞察を与え、World Simulatorsをエンボディされた人工知能への重要な進歩と位置づけている。
論文 参考訳(メタデータ) (2024-10-23T17:56:11Z) - Elements of World Knowledge (EWoK): A Cognition-Inspired Framework for Evaluating Basic World Knowledge in Language Models [51.891804790725686]
要素・オブ・ワールド・ナレッジ(Elements of World Knowledge, EWoK)は、言語モデルによる世界モデリングの基礎となる概念的知識の理解を評価するためのフレームワークである。
EWoK-core-1.0は世界11の知識領域をカバーする4,374項目のデータセットである。
すべてのテストされたモデルは人間よりもパフォーマンスが悪く、その結果はドメインによって大きく異なる。
論文 参考訳(メタデータ) (2024-05-15T17:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。