論文の概要: MiraBench: Evaluating Action-Conditioned Reliability in Robotic World Models
- arxiv url: http://arxiv.org/abs/2605.29360v1
- Date: Thu, 28 May 2026 04:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.746259
- Title: MiraBench: Evaluating Action-Conditioned Reliability in Robotic World Models
- Title(参考訳): MiraBench: ロボットの世界モデルにおけるアクション・コンディションの信頼性の評価
- Authors: Tianzhuo Yang, Zihan Shen, Zirui Mi, Zhaoyi Zhang, Jiayi Zhou, Jiaming Ji, Juntao Dai, Jiawei Chen, Boyuan Chen, Yaodong Yang,
- Abstract要約: 我々は,ロボット世界モデルのコア評価対象として,強調条件付き信頼性を定義する階層型ベンチマークであるtextscMiraBenchを紹介する。
この評価を支援するために,タスク,障害カテゴリ,先進世界モデルにまたがる16,000以上の判断で,人手によるコーパスをキュレートする。
視覚的忠実度はアクション忠実性の指標として不十分なこと、モデルスケールの増大はアクションのフォローを確実に改善しないこと、最適化バイアスが現在のシステム全体に広まること、である。
- 参考スコア(独自算出の注目度): 25.87580992111249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action-conditioned world models are increasingly used as scalable simulators for robot learning, yet current evaluations provide limited evidence that their predictions are reliable under the actions they condition on. Existing benchmarks largely emphasize visual fidelity, leaving unclear whether predicted futures are physically plausible, faithful to commanded actions, and calibrated to failure when actions should not succeed. We introduce \textsc{MiraBench}, a hierarchical benchmark that defines \emph{action-conditioned reliability} as a core evaluation target for robotic world models. MiraBench decomposes this target into three progressively demanding levels: \emph{Physics Adherence}, which evaluates reference-free physical consistency; \emph{Action-Following Fidelity}, which measures whether predictions respect task-relevant action inputs; and \emph{Optimism Bias Detection}, which probes the tendency to predict successful outcomes under failure-inducing actions. To support this evaluation, we curate a human-annotated corpus with over 16,000 judgments across tasks, failure categories, and leading world models. We evaluate 12 representative model configurations spanning vector-conditioned robotic world models, text-conditioned generative world models, open-weight systems, closed-source systems, and multiple model scales. Across this broad model landscape, MiraBench reveals three central findings: visual fidelity is a poor proxy for action fidelity; increasing model scale does not reliably improve action following; and optimism bias is pervasive across current systems. By shifting evaluation from appearance to action-conditioned reliability, MiraBench provides a diagnostic foundation for assessing and improving robotic world models as faithful simulators.
- Abstract(参考訳): アクション条件付き世界モデルは、ロボット学習のためのスケーラブルなシミュレータとしてますます利用されているが、現在の評価では、ロボットが条件を定めているアクションの下では、その予測が信頼できるという証拠が限られている。
既存のベンチマークは主に視覚的忠実さを強調しており、予測される未来が物理的に妥当であるかどうか、命令された行動に忠実であり、アクションが成功しない場合の失敗を校正している。
本稿では,ロボット世界モデルのコア評価対象として,‘emph{action-conditioned reliability} を定義する階層型ベンチマークである‘textsc{MiraBench} を紹介する。
MiraBench氏は、この目標を、基準のない物理的整合性を評価する \emph{Physics Adherence} 、タスク関連アクションの入力を尊重するかどうかを測定する \emph{Action-Following Fidelity} 、失敗誘発アクションによる結果を予測する傾向を調査する \emph{Optimism Bias Detection の3つの段階に分解する。
この評価を支援するために,タスク,障害カテゴリ,先進世界モデルにまたがる16,000以上の判断で,人手によるコーパスをキュレートする。
ベクトル条件付きロボット世界モデル,テキスト条件付き生成世界モデル,オープンウェイトシステム,クローズドソースシステム,複数モデルスケールにまたがる12の代表的なモデル構成を評価する。
視覚的忠実度はアクション忠実性の指標として不十分なこと、モデルスケールの増大はアクションのフォローを確実に改善しないこと、最適化バイアスが現在のシステム全体に広まること、である。
MiraBenchは外観から行動条件の信頼性へ評価をシフトすることで、忠実なシミュレータとしてロボットの世界モデルを評価し改善するための診断基盤を提供する。
関連論文リスト
- Feedback World Model Enables Precise Guidance of Diffusion Policy [36.965417653906535]
本稿では,推定時刻における予測と観測のループを閉じる新たなパラダイムであるフィードバック・ワールド・モデルを提案する。
本手法は,分布シフト時の予測精度とポリシー性能を大幅に向上することを示す。
特に、世界モデルの予測誤差を最大76.4%削減し、アウト・オブ・ディストリビューション(OOD)の成功率を30%改善する。
論文 参考訳(メタデータ) (2026-05-15T07:52:13Z) - World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry [82.93104394404781]
汎用世界モデルは、スケーラブルなポリシー評価、最適化、計画を約束します。
本稿では,世界モデルによる予測誤りと自己改善を識別するフレームワークであるWorld Action Verifier(WAV)を提案する。
論文 参考訳(メタデータ) (2026-04-02T12:48:36Z) - ManipArena: Comprehensive Real-world Evaluation of Reasoning-Oriented Generalist Robot Manipulation [66.02142169323521]
Vision-Language-ActionモデルとWorld Modelは最近、汎用ロボットインテリジェンスのための有望なパラダイムとして登場した。
既存のベンチマークは、主にシミュレータ中心であり、制御性を提供するが、知覚ノイズによって引き起こされる現実のギャップを捉えることができない。
シミュレーションと実世界の実行を橋渡しする標準化された評価フレームワークであるManipArenaを紹介する。
論文 参考訳(メタデータ) (2026-03-30T15:06:41Z) - WorldArena: A Unified Benchmark for Evaluating Perception and Functional Utility of Embodied World Models [114.95269118652163]
We introduced WorldArena, an unified benchmark designed for embodied world model across both perceptual and functional dimensions。
WorldArenaは、6つのサブ次元にまたがって16のメトリクスで測定されたビデオ知覚品質、データエンジンとして世界モデルを評価する実施されたタスク機能、ポリシー評価ツール、主観的な人間の評価と統合されたアクションプランナーの3つの次元でモデルを評価する。
14の代表的なモデルに対する広範囲な実験を通して、視覚的品質が必ずしも強い具体的タスク能力に変換されるとは限らないことを示す、重要な知覚-機能的ギャップを明らかにする。
論文 参考訳(メタデータ) (2026-02-09T18:09:20Z) - WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World [100.68103378427567]
エージェントは現実的な4D駆動環境を合成し、説得力があるように見えるが、物理的または行動的に失敗することが多い。
モデルがどのように構築され、理解され、その生成された世界の中でどのように振る舞うかを評価するフルスペクトルベンチマークであるWorldLensを紹介します。
さらに、数値的なスコアとテキストの合理性を備えた人間の注釈付きビデオの大規模データセット WorldLens-26K を構築し、WorldLens-Agent を開発した。
論文 参考訳(メタデータ) (2025-12-11T18:59:58Z) - WorldSimBench: Towards Video Generation Models as World Simulators [79.69709361730865]
我々は、予測モデルの機能を階層に分類し、WorldSimBenchと呼ばれる2つの評価フレームワークを提案することにより、World Simulatorの評価の第一歩を踏み出す。
WorldSimBenchにはExplicit Perceptual EvaluationとImplicit Manipulative Evaluationが含まれている。
我々の総合的な評価は、ビデオ生成モデルのさらなる革新を促進する重要な洞察を与え、World Simulatorsをエンボディされた人工知能への重要な進歩と位置づけている。
論文 参考訳(メタデータ) (2024-10-23T17:56:11Z) - Zero-shot Safety Prediction for Autonomous Robots with Foundation World Models [0.12499537119440243]
世界モデルは、コントローラを訓練し、システムの内部のダイナミックモデルを学ぶことによって安全違反を予測するために代理世界を作成する。
本稿では,観察を意味的かつ因果的に潜伏した表現に組み込む基礎世界モデルを提案する。
これにより、Surrogate dynamicsは、トレーニング不要な大規模言語モデルを活用することで、因果先状態を直接予測できる。
論文 参考訳(メタデータ) (2024-03-30T20:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。