論文の概要: WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World
- arxiv url: http://arxiv.org/abs/2512.10958v1
- Date: Thu, 11 Dec 2025 18:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.584884
- Title: WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World
- Title(参考訳): WorldLens:実世界における運転世界モデルのフルスペクトル評価
- Authors: Ao Liang, Lingdong Kong, Tianyi Yan, Hongsi Liu, Wesley Yang, Ziqi Huang, Wei Yin, Jialong Zuo, Yixuan Hu, Dekai Zhu, Dongyue Lu, Youquan Liu, Guangfeng Jiang, Linfeng Li, Xiangtai Li, Long Zhuo, Lai Xing Ng, Benoit R. Cottereau, Changxin Gao, Liang Pan, Wei Tsang Ooi, Ziwei Liu,
- Abstract要約: エージェントは現実的な4D駆動環境を合成し、説得力があるように見えるが、物理的または行動的に失敗することが多い。
モデルがどのように構築され、理解され、その生成された世界の中でどのように振る舞うかを評価するフルスペクトルベンチマークであるWorldLensを紹介します。
さらに、数値的なスコアとテキストの合理性を備えた人間の注釈付きビデオの大規模データセット WorldLens-26K を構築し、WorldLens-Agent を開発した。
- 参考スコア(独自算出の注目度): 100.68103378427567
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generative world models are reshaping embodied AI, enabling agents to synthesize realistic 4D driving environments that look convincing but often fail physically or behaviorally. Despite rapid progress, the field still lacks a unified way to assess whether generated worlds preserve geometry, obey physics, or support reliable control. We introduce WorldLens, a full-spectrum benchmark evaluating how well a model builds, understands, and behaves within its generated world. It spans five aspects -- Generation, Reconstruction, Action-Following, Downstream Task, and Human Preference -- jointly covering visual realism, geometric consistency, physical plausibility, and functional reliability. Across these dimensions, no existing world model excels universally: those with strong textures often violate physics, while geometry-stable ones lack behavioral fidelity. To align objective metrics with human judgment, we further construct WorldLens-26K, a large-scale dataset of human-annotated videos with numerical scores and textual rationales, and develop WorldLens-Agent, an evaluation model distilled from these annotations to enable scalable, explainable scoring. Together, the benchmark, dataset, and agent form a unified ecosystem for measuring world fidelity -- standardizing how future models are judged not only by how real they look, but by how real they behave.
- Abstract(参考訳): エージェントは現実的な4D駆動環境を合成し、説得力があるように見えるが、物理的または行動的に失敗することが多い。
急速な進歩にもかかわらず、生成した世界が幾何を保存するか、物理学に従うか、あるいは信頼できる制御をサポートするかを評価する統一的な方法がまだ存在しない。
モデルがどのように構築され、理解され、その生成された世界の中でどのように振る舞うかを評価するフルスペクトルベンチマークであるWorldLensを紹介します。
生成、再構成、アクションフォロー、ダウンストリームタスク、ヒューマン優先度の5つの側面にまたがっており、視覚リアリズム、幾何学的一貫性、物理的妥当性、機能的信頼性を共同でカバーしている。
強いテクスチャを持つものはしばしば物理学に反するが、幾何学的に安定なモデルは行動の忠実さを欠いている。
客観的な指標を人間の判断と整合させるため,数値スコアとテキスト合理性を備えた大規模人間のアノテーション付きビデオのデータセット WorldLens-26K を構築し,これらのアノテーションから抽出した評価モデル WorldLens-Agent を開発し,スケーラブルで説明可能なスコアを実現する。
ベンチマーク、データセット、エージェントは共に、世界の忠実度を測定するための統一されたエコシステムを形成します。
関連論文リスト
- 4DWorldBench: A Comprehensive Evaluation Framework for 3D/4D World Generation Models [29.06964332825464]
次世代マルチモーダル・インテリジェンス・システムの基盤として、次世代モデルが登場しつつある。
World Modelsは、画像、ビデオ、テキストからリアルでダイナミックで物理的に一貫した3D/4Dワールドを構築することを目的としている。
4DWorldBenchは,知覚品質,条件4Dアライメント,物理リアリズム,4D一貫性の4つの重要な次元でモデルを測定する。
論文 参考訳(メタデータ) (2025-11-25T02:05:35Z) - A Step Toward World Models: A Survey on Robotic Manipulation [58.8419978790227]
本稿では,ロボット操作の手法のレビューを通じて,世界モデルのコア機能を示すアプローチについて考察する。
我々は、認識、予測、制御にまたがる役割を分析し、主要な課題と解決策を特定し、完全に実現された世界モデルが持つべきコアコンポーネント、能力、機能を蒸留する。
論文 参考訳(メタデータ) (2025-10-31T00:57:24Z) - Clone Deterministic 3D Worlds with Geometrically-Regularized World Models [16.494281967592745]
エージェントが複雑でダイナミックな設定で効果的に思考、計画、理性を実現するためには、世界モデルが不可欠である。
急速な進歩にもかかわらず、現在の世界モデルは、長い地平線上で不安定で劣化している。
本稿では, 自然な知覚軌道に沿った連続点が潜在表現空間に近接しているような幾何学的正規化世界モデル(GRWM)を提案する。
論文 参考訳(メタデータ) (2025-10-30T17:56:43Z) - A Comprehensive Survey on World Models for Embodied AI [14.457261562275121]
エンボディードAIは、アクションがどのように将来の世界国家を形作るかを理解し、行動し、予測するエージェントを必要とする。
この調査は、組み込みAIにおける世界モデルのための統一されたフレームワークを示す。
論文 参考訳(メタデータ) (2025-10-19T07:12:32Z) - AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability [84.52205243353761]
最近の研究は、世界モデルを使用して、AIエージェントをデプロイ前にテストできる制御された仮想環境を生成することを提案する。
評価対象のAIエージェントに非依存な世界モデルを簡単にする方法を検討する。
論文 参考訳(メタデータ) (2025-04-06T20:35:44Z) - WorldSimBench: Towards Video Generation Models as World Simulators [79.69709361730865]
我々は、予測モデルの機能を階層に分類し、WorldSimBenchと呼ばれる2つの評価フレームワークを提案することにより、World Simulatorの評価の第一歩を踏み出す。
WorldSimBenchにはExplicit Perceptual EvaluationとImplicit Manipulative Evaluationが含まれている。
我々の総合的な評価は、ビデオ生成モデルのさらなる革新を促進する重要な洞察を与え、World Simulatorsをエンボディされた人工知能への重要な進歩と位置づけている。
論文 参考訳(メタデータ) (2024-10-23T17:56:11Z) - Elements of World Knowledge (EWoK): A Cognition-Inspired Framework for Evaluating Basic World Knowledge in Language Models [51.891804790725686]
要素・オブ・ワールド・ナレッジ(Elements of World Knowledge, EWoK)は、言語モデルによる世界モデリングの基礎となる概念的知識の理解を評価するためのフレームワークである。
EWoK-core-1.0は世界11の知識領域をカバーする4,374項目のデータセットである。
すべてのテストされたモデルは人間よりもパフォーマンスが悪く、その結果はドメインによって大きく異なる。
論文 参考訳(メタデータ) (2024-05-15T17:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。