論文の概要: WorldPrediction: A Benchmark for High-level World Modeling and Long-horizon Procedural Planning
- arxiv url: http://arxiv.org/abs/2506.04363v1
- Date: Wed, 04 Jun 2025 18:22:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.373411
- Title: WorldPrediction: A Benchmark for High-level World Modeling and Long-horizon Procedural Planning
- Title(参考訳): WorldPrediction: ハイレベルな世界モデリングと長距離手続き計画のためのベンチマーク
- Authors: Delong Chen, Willy Chung, Yejin Bang, Ziwei Ji, Pascale Fung,
- Abstract要約: 我々は、異なるAIモデルのワールドモデリングと手続き計画能力を評価するためのビデオベースのベンチマークであるWorldPredictionを紹介する。
現在のフロンティアモデルでは,WorldPrediction-WMでは57%,WorldPrediction-PPでは38%の精度しか達成できないが,人間は両タスクを完璧に解くことができる。
- 参考スコア(独自算出の注目度): 52.36434784963598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans are known to have an internal "world model" that enables us to carry out action planning based on world states. AI agents need to have such a world model for action planning as well. It is not clear how current AI models, especially generative models, are able to learn such world models and carry out procedural planning in diverse environments. We introduce WorldPrediction, a video-based benchmark for evaluating world modeling and procedural planning capabilities of different AI models. In contrast to prior benchmarks that focus primarily on low-level world modeling and robotic motion planning, WorldPrediction is the first benchmark that emphasizes actions with temporal and semantic abstraction. Given initial and final world states, the task is to distinguish the proper action (WorldPrediction-WM) or the properly ordered sequence of actions (WorldPrediction-PP) from a set of counterfactual distractors. This discriminative task setup enable us to evaluate different types of world models and planners and realize a thorough comparison across different hypothesis. The benchmark represents states and actions using visual observations. In order to prevent models from exploiting low-level continuity cues in background scenes, we provide "action equivalents" - identical actions observed in different contexts - as candidates for selection. This benchmark is grounded in a formal framework of partially observable semi-MDP, ensuring better reliability and robustness of the evaluation. We conduct extensive human filtering and validation on our benchmark and show that current frontier models barely achieve 57% accuracy on WorldPrediction-WM and 38% on WorldPrediction-PP whereas humans are able to solve both tasks perfectly.
- Abstract(参考訳): 人間は、世界国家に基づいた行動計画の実行を可能にする「世界モデル」を持つことが知られている。
AIエージェントは、アクションプランニングのためのこのような世界モデルを持つ必要がある。
現在のAIモデル、特に生成モデルが、このような世界モデルを学び、多様な環境で手続き計画を実行することができるのかは、明らかになっていない。
我々は、異なるAIモデルのワールドモデリングと手続き計画能力を評価するためのビデオベースのベンチマークであるWorldPredictionを紹介する。
主に低レベルの世界モデリングとロボットの動き計画に焦点を当てた以前のベンチマークとは対照的に、WorldPredictionは、時間的および意味的な抽象化によるアクションを強調する最初のベンチマークである。
初期および最終世界状態が与えられた場合、タスクは適切なアクション(WorldPrediction-WM)または適切に順序付けられたアクションのシーケンス(WorldPrediction-PP)を、反現実的障害の集合から区別することである。
この識別的タスク設定により、異なる種類の世界モデルとプランナーを評価し、異なる仮説間で徹底的な比較を実現することができる。
ベンチマークは、視覚的な観察による状態と行動を表す。
背景シーンにおいてモデルが低レベル連続性キューを悪用するのを防ぐために、選択候補として「アクション等価」 – 異なるコンテキストで観察される同一のアクション – を提供する。
このベンチマークは、部分的に観測可能な半MDPの形式的な枠組みに基づいており、評価の信頼性と堅牢性を保証する。
我々は、我々のベンチマークで広範囲な人間のフィルタリングと検証を行い、現在のフロンティアモデルでは、WorldPrediction-WMでは57%、WorldPrediction-PPでは38%の精度しか達成できない一方で、人間は両方のタスクを完璧に解決できることを示した。
関連論文リスト
- RLVR-World: Training World Models with Reinforcement Learning [41.05792054442638]
検証可能な報酬で強化学習を活用する統合フレームワークであるRLVR-Worldを提案する。
我々は,テキストゲーム,Webナビゲーション,ロボット操作など,ドメイン間の言語およびビデオベースの世界モデルにおいて,大幅なパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-05-20T05:02:53Z) - LaDi-WM: A Latent Diffusion-based World Model for Predictive Manipulation [51.834607121538724]
拡散モデルを用いて将来の状態の潜伏空間を予測する世界モデルLaDi-WMを提案する。
LIBERO-LONGベンチマークでは,LaDi-WMが27.9%,現実シナリオでは20%,政策性能が著しく向上することを示した。
論文 参考訳(メタデータ) (2025-05-13T04:42:14Z) - AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability [84.52205243353761]
最近の研究は、世界モデルを使用して、AIエージェントをデプロイ前にテストできる制御された仮想環境を生成することを提案する。
評価対象のAIエージェントに非依存な世界モデルを簡単にする方法を検討する。
論文 参考訳(メタデータ) (2025-04-06T20:35:44Z) - WorldModelBench: Judging Video Generation Models As World Models [57.776769550453594]
ビデオ生成モデルは急速に進歩し、ロボット工学や自動運転といった意思決定アプリケーションをサポートするビデオワールドモデルとしての地位を確立している。
現在のベンチマークでは、これらの主張を厳格に評価することができず、一般的なビデオ品質にのみ焦点が当てられている。
アプリケーション駆動ドメインにおけるビデオ生成モデルのワールドモデリング能力を評価するためのベンチマークであるWorldModelBenchを提案する。
論文 参考訳(メタデータ) (2025-02-28T03:58:23Z) - Zero-shot Safety Prediction for Autonomous Robots with Foundation World Models [0.12499537119440243]
世界モデルは、コントローラを訓練し、システムの内部のダイナミックモデルを学ぶことによって安全違反を予測するために代理世界を作成する。
本稿では,観察を意味的かつ因果的に潜伏した表現に組み込む基礎世界モデルを提案する。
これにより、Surrogate dynamicsは、トレーニング不要な大規模言語モデルを活用することで、因果先状態を直接予測できる。
論文 参考訳(メタデータ) (2024-03-30T20:03:49Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。
私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。
次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文 参考訳(メタデータ) (2023-04-26T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。