論文の概要: RoboTrustBench: Benchmarking the Trustworthiness of Video World Models for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2606.01600v1
- Date: Mon, 01 Jun 2026 02:56:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.884186
- Title: RoboTrustBench: Benchmarking the Trustworthiness of Video World Models for Robotic Manipulation
- Title(参考訳): RoboTrustBench:ロボットマニピュレーションのためのビデオワールドモデルの信頼性のベンチマーク
- Authors: Huiqiong Li, Jiayu Wang, Zhiting Mei, Anirudha Majumdar, Jingjing Chen, Bin Zhu,
- Abstract要約: 我々は,ビデオワールドモデルの信頼性を評価するベンチマークであるRoboTrustBenchを紹介した。
現在のモデルは、しばしば視覚的に一貫性のあるビデオを生成するが、制約推論、反ファクトグラウンド、物理的相互作用、安全でない命令抑制に苦慮している。
- 参考スコア(独自算出の注目度): 33.81624745282099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video world models are increasingly used in robotic manipulation, yet existing benchmarks mostly evaluate them under valid, feasible, and safe instructions. We introduce RoboTrustBench, a benchmark for evaluating the trustworthiness of video world models under four scenarios: Normal, Constraint-Sensitive, Counterfactual, and Adversarial. Built from real-world DROID episodes, RoboTrustBench contains 1,207 expert-validated instruction-image pairs and a six-dimensional evaluation protocol with 13 fine-grained criteria. Evaluating seven representative video world models with human and MLLM assessment, we find that current models often generate visually coherent videos, but struggle with constraint reasoning, counterfactual grounding, physical interaction, and unsafe-instruction suppression. These results show that visual quality and surface-level instruction following are insufficient for trustworthy robotic video world modeling.
- Abstract(参考訳): ビデオワールドモデルはロボット操作にますます使われているが、既存のベンチマークは主に有効で実現可能で安全な指示の下で評価されている。
我々は,ビデオワールドモデルの信頼性を評価するベンチマークであるRoboTrustBenchを紹介した。
RoboTrustBenchは現実世界のDROIDのエピソードから構築され、1,207のエキスパート検証された命令イメージペアと、13のきめ細かい基準を持つ6次元評価プロトコルを含んでいる。
ヒトとMLLMの評価による7つの代表的ビデオワールドモデルの評価により、現在のモデルは、しばしば視覚的に一貫性のあるビデオを生成するが、制約推論、反ファクトグラウンド、物理的相互作用、安全でない命令の抑制に苦慮していることがわかった。
これらの結果から,ロボット・ビデオ・ワールド・モデリングにおいて,視覚的品質と表面レベルの指示は不十分であることが示唆された。
関連論文リスト
- MiraBench: Evaluating Action-Conditioned Reliability in Robotic World Models [25.87580992111249]
我々は,ロボット世界モデルのコア評価対象として,強調条件付き信頼性を定義する階層型ベンチマークであるtextscMiraBenchを紹介する。
この評価を支援するために,タスク,障害カテゴリ,先進世界モデルにまたがる16,000以上の判断で,人手によるコーパスをキュレートする。
視覚的忠実度はアクション忠実性の指標として不十分なこと、モデルスケールの増大はアクションのフォローを確実に改善しないこと、最適化バイアスが現在のシステム全体に広まること、である。
論文 参考訳(メタデータ) (2026-05-28T04:58:15Z) - GEM-4D: Geometry-Enhanced Video World Models for Robot Manipulation [72.52773248997929]
ビデオワールドモデルは、1つの命令から現実的な未来を生成できるが、時間とともに一貫したポイントレベルの動きを維持できないことが多い。
GEM-4Dは、トレーニング中にビデオ生成バックボーンに高密度な4D対応制御を注入する幾何学的地上ビデオワールドモデルである。
Inverse dynamicsモジュールは、対応性のあるビデオロールアウトを実行可能なロボットトラジェクトリに変換し、現実世界とシミュレーション操作の両方で直接デプロイできる。
論文 参考訳(メタデータ) (2026-05-20T21:36:44Z) - WorldReasonBench: Human-Aligned Stress Testing of Video Generators as Future World-State Predictors [45.545823511469166]
本稿では,映像生成評価を世界状態予測として再設定するWorldReasonBenchを紹介する。
人手による2部構成手法を用いて生成した映像の評価を行った。
WorldRewardBenchは、約6Kのエキスパートアノテートされたペアが1.4Kビデオに対して設定された選好ベンチマークである。
論文 参考訳(メタデータ) (2026-05-11T12:06:57Z) - RoboWM-Bench: A Benchmark for Evaluating World Models in Robotic Manipulation [23.57524297963567]
RoboWM-Benchは、ビデオワールドモデルの評価のための操作中心のベンチマークである。
我々は、最先端のビデオワールドモデルを評価し、物理的に実行可能な動作を確実に生成することは、未解決の課題である。
論文 参考訳(メタデータ) (2026-04-21T05:09:56Z) - Evaluating Gemini Robotics Policies in a Veo World Simulator [69.23071832313246]
我々はフロンティアビデオ基盤モデル(Veo)に基づく生成的評価システムを導入する。
このシステムは、ロボットアクションコンディショニングとマルチビュー一貫性をサポートするよう最適化されている。
我々は、Gemini Roboticsのポリシーチェックポイント8つと、バイマニュアルマニピュレータのための5つのタスクの1600以上の実世界の評価を通じて、これらの能力を検証した。
論文 参考訳(メタデータ) (2025-12-11T14:22:14Z) - VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness [74.17234924159108]
本稿では,本質的な忠実度を示すビデオ生成モデルを評価するためのベンチマークであるVBench-2.0を紹介する。
VBench-2.0は、人間の忠実さ、コントロール可能性、創造性、物理学、コモンセンスの5つの重要な次元を評価している。
我々は、人間の判断に一致した評価を確保するために、広範囲な人間のアノテーションを実行します。
論文 参考訳(メタデータ) (2025-03-27T17:57:01Z) - WorldModelBench: Judging Video Generation Models As World Models [57.776769550453594]
ビデオ生成モデルは急速に進歩し、ロボット工学や自動運転といった意思決定アプリケーションをサポートするビデオワールドモデルとしての地位を確立している。
現在のベンチマークでは、これらの主張を厳格に評価することができず、一般的なビデオ品質にのみ焦点が当てられている。
アプリケーション駆動ドメインにおけるビデオ生成モデルのワールドモデリング能力を評価するためのベンチマークであるWorldModelBenchを提案する。
論文 参考訳(メタデータ) (2025-02-28T03:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。