論文の概要: A Benchmark for Interactive World Models with a Unified Action Generation Framework
- arxiv url: http://arxiv.org/abs/2605.03941v1
- Date: Tue, 05 May 2026 16:30:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:44.032453
- Title: A Benchmark for Interactive World Models with a Unified Action Generation Framework
- Title(参考訳): 統一行動生成フレームワークを用いた対話型世界モデルのベンチマーク
- Authors: Jianjie Fang, Yingshan Lei, Qin Wan, Ziyou Wang, Yuchao Huang, Yongyan Xu, Baining Zhao, Weichen Zhang, Chen Gao, Xinlei Chen, Yong Li,
- Abstract要約: iWorld-Benchは、インタラクション関連の能力に関するワールドモデルのトレーニングとテストのためのベンチマークである。
330kのビデオクリップによる多様なデータセットを構築し、さまざまな視点、天気、シーンをカバーする2.1kの高品質なサンプルを選択した。
- 参考スコア(独自算出の注目度): 27.208236690012914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving Artificial General Intelligence (AGI) requires agents that learn and interact adaptively, with interactive world models providing scalable environments for perception, reasoning, and action. Yet current research still lacks large-scale datasets and unified benchmarks to evaluate their physical interaction capabilities. To address this, we propose iWorld-Bench, a comprehensive benchmark for training and testing world models on interaction-related abilities such as distance perception and memory. We construct a diverse dataset with 330k video clips and select 2.1k high-quality samples covering varied perspectives, weather, and scenes. As existing world models differ in interaction modalities, we introduce an Action Generation Framework to unify evaluation and design six task types, generating 4.9k test samples. These tasks jointly assess model performance across visual generation, trajectory following, and memory. Evaluating 14 representative world models, we identify key limitations and provide insights for future research. The iWorld-Bench model leaderboard is publicly available at iWorld-Bench.com.
- Abstract(参考訳): 人工知能(AGI)の達成には、知覚、推論、行動のためのスケーラブルな環境を提供するインタラクティブな世界モデルを用いて、適応的に学習し、相互作用するエージェントが必要である。
しかし、現在の研究には、物理的な相互作用能力を評価するための大規模なデータセットと統一されたベンチマークがまだ欠けている。
そこで本研究では,距離知覚やメモリなどのインタラクション関連能力に関する世界モデルのトレーニングとテストのための総合ベンチマークiWorld-Benchを提案する。
330kのビデオクリップによる多様なデータセットを構築し、さまざまな視点、天気、シーンをカバーする2.1kの高品質なサンプルを選択した。
既存の世界モデルは相互作用のモダリティが異なるため、評価を統一し、6つのタスクタイプを設計するためのアクション生成フレームワークを導入し、4.9kのテストサンプルを生成します。
これらのタスクは、視覚生成、軌跡追従、メモリにわたるモデルパフォーマンスを共同で評価する。
14の代表的な世界モデルを評価し、重要な限界を特定し、将来の研究に洞察を与える。
iWorld-BenchモデルリーダーボードはiWorld-Bench.comで公開されている。
関連論文リスト
- Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models [39.648000265543445]
ビデオベースの世界モデルは、ビデオ生成と3D再構成という2つの支配的なパラダイムに沿って登場した。
世界モデリングの未来は、空間構造と時間的進化を共同でモデル化する4D世代にあると我々は主張する。
Omni-WorldBenchは,世界モデルの対話的応答能力を4次元設定で評価するためのベンチマークである。
論文 参考訳(メタデータ) (2026-03-23T17:10:29Z) - Interactive World Simulator for Robot Policy Training and Evaluation [21.481187472784047]
ロボットインタラクションデータセットからインタラクティブな世界モデルを構築するためのフレームワークであるInteractive World Simulatorを提案する。
我々の実験では、学習された世界モデルが相互作用に一貫性のあるピクセルレベルの予測を生成する。
我々は,世界モデル生成データに基づいてトレーニングされたポリシーが,同じ量の実世界のデータでトレーニングされたポリシーと相容れないことを発見した。
論文 参考訳(メタデータ) (2026-03-09T16:13:32Z) - WorldArena: A Unified Benchmark for Evaluating Perception and Functional Utility of Embodied World Models [114.95269118652163]
We introduced WorldArena, an unified benchmark designed for embodied world model across both perceptual and functional dimensions。
WorldArenaは、6つのサブ次元にまたがって16のメトリクスで測定されたビデオ知覚品質、データエンジンとして世界モデルを評価する実施されたタスク機能、ポリシー評価ツール、主観的な人間の評価と統合されたアクションプランナーの3つの次元でモデルを評価する。
14の代表的なモデルに対する広範囲な実験を通して、視覚的品質が必ずしも強い具体的タスク能力に変換されるとは限らないことを示す、重要な知覚-機能的ギャップを明らかにする。
論文 参考訳(メタデータ) (2026-02-09T18:09:20Z) - WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World [100.68103378427567]
エージェントは現実的な4D駆動環境を合成し、説得力があるように見えるが、物理的または行動的に失敗することが多い。
モデルがどのように構築され、理解され、その生成された世界の中でどのように振る舞うかを評価するフルスペクトルベンチマークであるWorldLensを紹介します。
さらに、数値的なスコアとテキストの合理性を備えた人間の注釈付きビデオの大規模データセット WorldLens-26K を構築し、WorldLens-Agent を開発した。
論文 参考訳(メタデータ) (2025-12-11T18:59:58Z) - WorldPrediction: A Benchmark for High-level World Modeling and Long-horizon Procedural Planning [52.36434784963598]
我々は、異なるAIモデルのワールドモデリングと手続き計画能力を評価するためのビデオベースのベンチマークであるWorldPredictionを紹介する。
現在のフロンティアモデルでは,WorldPrediction-WMでは57%,WorldPrediction-PPでは38%の精度しか達成できないが,人間は両タスクを完璧に解くことができる。
論文 参考訳(メタデータ) (2025-06-04T18:22:40Z) - World Models for Cognitive Agents: Transforming Edge Intelligence in Future Networks [55.90051810762702]
本稿では,世界モデルを概観し,そのアーキテクチャ,トレーニングパラダイム,予測,生成,計画,因果推論といった応用を概観する。
ワイヤレスエッジインテリジェンス最適化に適した,新しい世界モデルに基づく強化学習フレームワークであるWireless Dreamerを提案する。
論文 参考訳(メタデータ) (2025-05-31T06:43:00Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z) - Elements of World Knowledge (EWoK): A Cognition-Inspired Framework for Evaluating Basic World Knowledge in Language Models [51.891804790725686]
要素・オブ・ワールド・ナレッジ(Elements of World Knowledge, EWoK)は、言語モデルによる世界モデリングの基礎となる概念的知識の理解を評価するためのフレームワークである。
EWoK-core-1.0は世界11の知識領域をカバーする4,374項目のデータセットである。
すべてのテストされたモデルは人間よりもパフォーマンスが悪く、その結果はドメインによって大きく異なる。
論文 参考訳(メタデータ) (2024-05-15T17:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。