論文の概要: RoboWM-Bench: A Benchmark for Evaluating World Models in Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2604.19092v1
- Date: Tue, 21 Apr 2026 05:09:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.631504
- Title: RoboWM-Bench: A Benchmark for Evaluating World Models in Robotic Manipulation
- Title(参考訳): RoboWM-Bench:ロボットマニピュレーションにおける世界モデル評価ベンチマーク
- Authors: Feng Jiang, Yang Chen, Kyle Xu, Yuchen Liu, Haifeng Wang, Zhenhao Shen, Jasper Lu, Shengze Huang, Yuanfei Wang, Chen Xie, Ruihai Wu,
- Abstract要約: RoboWM-Benchは、ビデオワールドモデルの評価のための操作中心のベンチマークである。
我々は、最先端のビデオワールドモデルを評価し、物理的に実行可能な動作を確実に生成することは、未解決の課題である。
- 参考スコア(独自算出の注目度): 23.57524297963567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large-scale video world models have enabled increasingly realistic future prediction, raising the prospect of leveraging imagined videos for robot learning. However, visual realism does not imply physical plausibility, and behaviors inferred from generated videos may violate dynamics and fail when executed by embodied agents. Existing benchmarks begin to incorporate notions of physical plausibility, but they largely remain perception- or diagnostic-oriented and do not systematically evaluate whether predicted behaviors can be translated into executable actions that complete the intended task. To address this gap, we introduce RoboWM-Bench, a manipulation-centric benchmark for embodiment-grounded evaluation of video world models. RoboWM-Bench converts generated behaviors from both human-hand and robotic manipulation videos into embodied action sequences and validates them through robotic execution. The benchmark spans diverse manipulation scenarios and establishes a unified protocol for consistent and reproducible evaluation. Using RoboWM-Bench, we evaluate state-of-the-art video world models and find that reliably generating physically executable behaviors remains an open challenge. Common failure modes include errors in spatial reasoning, unstable contact prediction, and non-physical deformations. While finetuning on manipulation data yields improvements, physical inconsistencies still persist, suggesting opportunities for more physically grounded video generation for robots.
- Abstract(参考訳): 大規模ビデオワールドモデルの最近の進歩は、ますます現実的な未来予測を可能にし、ロボット学習に想像ビデオを活用する可能性を高めている。
しかし、視覚的リアリズムは物理的妥当性を示唆せず、生成されたビデオから推測される行動は、エンボディエージェントによって実行されるときのダイナミックスや失敗に反する可能性がある。
既存のベンチマークでは、物理的な可視性の概念が取り入れられ始めているが、それらは主に知覚や診断指向であり、予測された振る舞いが意図されたタスクを完了させる実行可能なアクションに変換できるかどうかを体系的に評価していない。
このギャップに対処するため,ビデオワールドモデル評価のための操作中心ベンチマークであるRoboWM-Benchを紹介する。
RoboWM-Benchは、人間の手とロボットの操作ビデオから生成された振る舞いを、具体化されたアクションシーケンスに変換し、ロボットの実行を通じて検証する。
このベンチマークは様々な操作シナリオにまたがり、一貫した再現可能な評価のための統一されたプロトコルを確立する。
RoboWM-Benchを用いて、最先端のビデオワールドモデルを評価し、物理的に実行可能な動作を確実に生成することは、未解決の課題である。
一般的な障害モードには、空間的推論におけるエラー、不安定な接触予測、非物理的変形が含まれる。
操作データの微調整は改善をもたらすが、物理的な不整合は引き続き持続し、ロボットのためのより物理的に基盤付けられたビデオ生成の機会を示唆している。
関連論文リスト
- ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment [31.000965640377128]
ABot-PhysWorldは14B Diffusion Transformerモデルで、視覚的にリアルで、物理的に可視で、アクション制御可能なビデオを生成する。
視覚的品質を維持しながら、非物理的行動を抑制するために、分離された識別器を備えた新しいDPOベースのポストトレーニングフレームワークを使用する。
PBenchとEZSbenchはVeo 3.1とSora v2 Proを上回り、物理的妥当性と軌道整合性を実現している。
論文 参考訳(メタデータ) (2026-03-24T16:07:09Z) - EVA: Aligning Video World Models with Executable Robot Actions via Inverse Dynamics Rewards [47.255807408091755]
ビデオ生成モデルは、ロボット工学の世界モデルとしてますます使われている。
現在のビデオワールドモデルは、明示的な実行可能性の制約を欠いている。
本稿では,ビデオワールドモデルを調整するための強化学習フレームワークであるExecutable Video Alignment (EVA)を紹介する。
論文 参考訳(メタデータ) (2026-03-18T15:02:19Z) - Learning Physics from Pretrained Video Models: A Multimodal Continuous and Sequential World Interaction Models for Robotic Manipulation [63.04810454548667]
我々は、ロボット操作タスクを解決するために、スケーラブルで連続的かつシーケンシャルな世界インタラクションフレームワークであるPhysGenを紹介した。
トレーニング済みのビデオモデルを物理シミュレーターのプロキシとして扱うことで、PhysGenは外部環境とロボット動作の間の動的相互作用をモデル化する。
本稿では,映像とアクションを共有物理トークンに統合し,離散映像生成と連続ロボット制御のギャップを埋めるマルチモーダル連続表現を提案する。
論文 参考訳(メタデータ) (2026-02-18T14:58:18Z) - Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。