論文の概要: Evaluating Robot Policies in a World Model
- arxiv url: http://arxiv.org/abs/2506.00613v1
- Date: Sat, 31 May 2025 15:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.290092
- Title: Evaluating Robot Policies in a World Model
- Title(参考訳): 世界モデルにおけるロボット政策の評価
- Authors: Julian Quevedo, Percy Liang, Sherry Yang,
- Abstract要約: WPE(World-model-based Policy Evaluation)について検討する。
WPEは実際のビデオのようにロボットアームの動きを模倣することで高い忠実性を達成する。
WPEは実世界の展開前にロボットポリシーを評価する出発点として機能することを示す。
- 参考スコア(独自算出の注目度): 54.874926065292904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotics has broad applications from automating house chores to taking care of patients. However, evaluating robot control policies is challenging, as real-world testing is expensive, while handcrafted simulations often fail to accurately reflect real-world conditions, resulting in poor correlation between simulated evaluation and real-world outcomes. In this work, we investigate World-model-based Policy Evaluation (WPE). We first train an action-conditioned video generation model as a proxy to real-world environments. To enable efficient rollouts of hundreds of interactive steps while mitigating error accumulation in the world model, we propose an inference scheme which we call Blockwise-Autoregressive Diffusion Transformer with adjustable context and decoding horizon lengths. To ensure that the world model indeed follows action input, we propose metrics based on the agreement between the ground truth video and generated video conditioned on the same sequence of actions to evaluate the world model. We then use the world model for policy evaluation by performing Monte Carlo rollouts in the world model while employing a vision-language model (VLM) as a reward function. Interestingly, we found that WPE tends to underestimate the policy values for in-distribution actions and overestimate policy values for out-of-distribution actions. Nevertheless, WPE preserves the relative rankings of different policies. In emulating real robot executions, WPE achieves high fidelity in mimicing robot arm movements as in real videos, while emulating highly realistic object interaction remains challenging. Despite this limitation, we show that a world model can serve as a starting point for evaluating robot policies before real-world deployment.
- Abstract(参考訳): ロボットは、家事の自動化から患者の世話まで幅広い用途を持っている。
しかし、実世界のテストは高価であるため、ロボット制御ポリシーの評価は難しいが、手作りのシミュレーションでは実世界の状況を正確に反映できないことが多く、シミュレーションされた評価と実世界の結果との相関は低い。
本研究では,世界モデルに基づく政策評価(WPE)について検討する。
まず、実環境のプロキシとしてアクション条件付きビデオ生成モデルをトレーニングする。
本研究では,世界モデルにおける誤り蓄積を軽減しつつ,数百の対話的なステップの効率的なロールアウトを実現するために,調整可能なコンテキストでBlockwise-Autoregressive Diffusion Transformerと呼ぶ推論スキームを提案する。
本研究では,世界モデルが実際に行動入力に従っていることを確認するために,同じ行動列に条件付けされた地上の真実映像と生成された映像との一致に基づくメトリクスを提案し,世界モデルを評価する。
次に、視覚言語モデル(VLM)を報酬関数として使用しながら、世界モデルにおけるモンテカルロロールアウトを実行することで、世界モデルを用いて政策評価を行う。
興味深いことに、WPEは非流通行動の政策値を過小評価する傾向にあり、非流通行動の政策値を過小評価する傾向にある。
しかしながら、WPEは異なる政策の相対的なランクを維持している。
実際のロボット実行のエミュレートにおいて、WPEは実際のビデオのようにロボットアームの動きを模倣する上で高い忠実性を達成する一方で、非常に現実的なオブジェクトインタラクションをエミュレートすることは依然として困難である。
この制限にもかかわらず、実世界の展開前にロボットポリシーを評価するための出発点として、世界モデルが機能することを示します。
関連論文リスト
- WorldEval: World Model as Real-World Robot Policies Evaluator [13.899692171641066]
重要な課題は、ロボットのアクションを忠実に反映した世界モデルから正確なポリシービデオを生成することだ。
本稿では,ビデオ生成モデルをロボットビデオを生成するための潜在動作に従う世界シミュレータに変換するための,シンプルで効果的な手法であるPolyse2Vecを提案する。
次に、実世界のロボットポリシーをオンラインで完全に評価するために設計された、自動パイプラインであるWorldEvalを紹介します。
論文 参考訳(メタデータ) (2025-05-25T07:41:39Z) - Real-is-Sim: Bridging the Sim-to-Real Gap with a Dynamic Digital Twin for Real-World Robot Policy Evaluation [8.36634439225698]
本稿では,動的デジタルツインをポリシー開発パイプライン全体に組み込んだ行動クローニングフレームワークであるReal-is-simを提案する。
我々は、PushT操作タスクにおける実数値を検証し、シミュレータで得られた成功率と実世界の評価との間に強い相関関係を示す。
論文 参考訳(メタデータ) (2025-04-04T17:05:56Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - WorldSimBench: Towards Video Generation Models as World Simulators [79.69709361730865]
我々は、予測モデルの機能を階層に分類し、WorldSimBenchと呼ばれる2つの評価フレームワークを提案することにより、World Simulatorの評価の第一歩を踏み出す。
WorldSimBenchにはExplicit Perceptual EvaluationとImplicit Manipulative Evaluationが含まれている。
我々の総合的な評価は、ビデオ生成モデルのさらなる革新を促進する重要な洞察を与え、World Simulatorsをエンボディされた人工知能への重要な進歩と位置づけている。
論文 参考訳(メタデータ) (2024-10-23T17:56:11Z) - GRAPPA: Generalizing and Adapting Robot Policies via Online Agentic Guidance [15.774237279917594]
本稿では,ロボットによる自己指導と自己改善のためのエージェントフレームワークを提案する。
本フレームワークは,環境中の関連オブジェクトに対して,ベースロボットポリシーを反復的に適用する。
弊社のアプローチは、操作ポリシーを効果的にガイドし、成功率を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-09T02:00:37Z) - Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。