論文の概要: WorldArena: A Unified Benchmark for Evaluating Perception and Functional Utility of Embodied World Models
- arxiv url: http://arxiv.org/abs/2602.08971v2
- Date: Wed, 11 Feb 2026 10:50:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 15:03:20.117111
- Title: WorldArena: A Unified Benchmark for Evaluating Perception and Functional Utility of Embodied World Models
- Title(参考訳): WorldArena: 身体的世界モデルの知覚と機能的実用性を評価するための統一ベンチマーク
- Authors: Yu Shang, Zhuohang Li, Yiding Ma, Weikang Su, Xin Jin, Ziyou Wang, Lei Jin, Xin Zhang, Yinzhou Tang, Haisheng Su, Chen Gao, Wei Wu, Xihui Liu, Dhruv Shah, Zhaoxiang Zhang, Zhibo Chen, Jun Zhu, Yonghong Tian, Tat-Seng Chua, Wenwu Zhu, Yong Li,
- Abstract要約: We introduced WorldArena, an unified benchmark designed for embodied world model across both perceptual and functional dimensions。
WorldArenaは、6つのサブ次元にまたがって16のメトリクスで測定されたビデオ知覚品質、データエンジンとして世界モデルを評価する実施されたタスク機能、ポリシー評価ツール、主観的な人間の評価と統合されたアクションプランナーの3つの次元でモデルを評価する。
14の代表的なモデルに対する広範囲な実験を通して、視覚的品質が必ずしも強い具体的タスク能力に変換されるとは限らないことを示す、重要な知覚-機能的ギャップを明らかにする。
- 参考スコア(独自算出の注目度): 114.95269118652163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While world models have emerged as a cornerstone of embodied intelligence by enabling agents to reason about environmental dynamics through action-conditioned prediction, their evaluation remains fragmented. Current evaluation of embodied world models has largely focused on perceptual fidelity (e.g., video generation quality), overlooking the functional utility of these models in downstream decision-making tasks. In this work, we introduce WorldArena, a unified benchmark designed to systematically evaluate embodied world models across both perceptual and functional dimensions. WorldArena assesses models through three dimensions: video perception quality, measured with 16 metrics across six sub-dimensions; embodied task functionality, which evaluates world models as data engines, policy evaluators, and action planners integrating with subjective human evaluation. Furthermore, we propose EWMScore, a holistic metric integrating multi-dimensional performance into a single interpretable index. Through extensive experiments on 14 representative models, we reveal a significant perception-functionality gap, showing that high visual quality does not necessarily translate into strong embodied task capability. WorldArena benchmark with the public leaderboard is released at https://world-arena.ai, providing a framework for tracking progress toward truly functional world models in embodied AI.
- Abstract(参考訳): 世界モデルは、エージェントが行動条件付き予測を通じて環境力学を推論できるようにすることによって、インテリジェンスを具現化した基盤として現れてきたが、その評価はいまだに断片化されている。
エンボディドワールドモデルの現在の評価は、主に知覚的忠実度(例えば、ビデオ生成品質)に焦点を当てており、下流意思決定タスクにおけるこれらのモデルの機能的有用性を見越している。
本研究では,視覚と機能の両方にまたがる具体的世界モデルを体系的に評価するための統一ベンチマークであるWorldArenaを紹介する。
WorldArenaは、6つのサブ次元にまたがって16のメトリクスで測定されたビデオ知覚品質、データエンジンとして世界モデルを評価する実施されたタスク機能、ポリシー評価ツール、主観的な人間の評価と統合されたアクションプランナーの3つの次元でモデルを評価する。
さらに,多次元性能を1つの解釈可能な指標に統合した総合計量であるEWMScoreを提案する。
14の代表的なモデルに対する広範囲な実験を通して、視覚的品質が必ずしも強い具体的タスク能力に変換されるとは限らないことを示す、重要な知覚-機能的ギャップを明らかにする。
公開リーダボードを備えたWorldArenaベンチマークがhttps://world-arena.aiでリリースされ、具体化されたAIで真に機能する世界モデルに向けた進捗を追跡するためのフレームワークを提供する。
関連論文リスト
- WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World [100.68103378427567]
エージェントは現実的な4D駆動環境を合成し、説得力があるように見えるが、物理的または行動的に失敗することが多い。
モデルがどのように構築され、理解され、その生成された世界の中でどのように振る舞うかを評価するフルスペクトルベンチマークであるWorldLensを紹介します。
さらに、数値的なスコアとテキストの合理性を備えた人間の注釈付きビデオの大規模データセット WorldLens-26K を構築し、WorldLens-Agent を開発した。
論文 参考訳(メタデータ) (2025-12-11T18:59:58Z) - A Comprehensive Survey on World Models for Embodied AI [14.457261562275121]
エンボディードAIは、アクションがどのように将来の世界国家を形作るかを理解し、行動し、予測するエージェントを必要とする。
この調査は、組み込みAIにおける世界モデルのための統一されたフレームワークを示す。
論文 参考訳(メタデータ) (2025-10-19T07:12:32Z) - World Model Implanting for Test-time Adaptation of Embodied Agents [29.514831254621438]
具体的AIにおいて、永続的な課題は、エージェントが広範なデータ収集や再トレーニングを必要とせずに、新しいドメインへの堅牢な適応を可能にすることである。
本稿では、大規模言語モデルの推論能力と、独立に学習されたドメイン固有世界モデルを組み合わせた世界モデル埋め込みフレームワーク(WorMI)を提案する。
我々は、VirtualHomeとALFWorldのベンチマークでWorMIを評価し、いくつかのLSMベースのアプローチと比較して、ゼロショットと少数ショットのパフォーマンスが優れていることを示した。
論文 参考訳(メタデータ) (2025-09-04T07:32:16Z) - WorldPrediction: A Benchmark for High-level World Modeling and Long-horizon Procedural Planning [52.36434784963598]
我々は、異なるAIモデルのワールドモデリングと手続き計画能力を評価するためのビデオベースのベンチマークであるWorldPredictionを紹介する。
現在のフロンティアモデルでは,WorldPrediction-WMでは57%,WorldPrediction-PPでは38%の精度しか達成できないが,人間は両タスクを完璧に解くことができる。
論文 参考訳(メタデータ) (2025-06-04T18:22:40Z) - World Models for Cognitive Agents: Transforming Edge Intelligence in Future Networks [55.90051810762702]
本稿では,世界モデルを概観し,そのアーキテクチャ,トレーニングパラダイム,予測,生成,計画,因果推論といった応用を概観する。
ワイヤレスエッジインテリジェンス最適化に適した,新しい世界モデルに基づく強化学習フレームワークであるWireless Dreamerを提案する。
論文 参考訳(メタデータ) (2025-05-31T06:43:00Z) - AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability [84.52205243353761]
最近の研究は、世界モデルを使用して、AIエージェントをデプロイ前にテストできる制御された仮想環境を生成することを提案する。
評価対象のAIエージェントに非依存な世界モデルを簡単にする方法を検討する。
論文 参考訳(メタデータ) (2025-04-06T20:35:44Z) - WorldSimBench: Towards Video Generation Models as World Simulators [79.69709361730865]
我々は、予測モデルの機能を階層に分類し、WorldSimBenchと呼ばれる2つの評価フレームワークを提案することにより、World Simulatorの評価の第一歩を踏み出す。
WorldSimBenchにはExplicit Perceptual EvaluationとImplicit Manipulative Evaluationが含まれている。
我々の総合的な評価は、ビデオ生成モデルのさらなる革新を促進する重要な洞察を与え、World Simulatorsをエンボディされた人工知能への重要な進歩と位置づけている。
論文 参考訳(メタデータ) (2024-10-23T17:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。