論文の概要: Reliable and Scalable Robot Policy Evaluation with Imperfect Simulators
- arxiv url: http://arxiv.org/abs/2510.04354v1
- Date: Sun, 05 Oct 2025 20:37:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.600883
- Title: Reliable and Scalable Robot Policy Evaluation with Imperfect Simulators
- Title(参考訳): 不完全なシミュレータによる信頼性・スケーラブルなロボット政策評価
- Authors: Apurva Badithela, David Snyder, Lihan Zha, Joseph Mikhail, Matthew O'Kelly, Anushri Dixit, Anirudha Majumdar,
- Abstract要約: SureSimは、比較的小さな実世界のテストで大規模なシミュレーションを強化するためのフレームワークである。
我々は,非漸近平均推定アルゴリズムを利用して,平均政策性能に対する信頼区間を提供する。
当社のアプローチは,同様のポリシ性能の限界を達成するため,ハードウェア評価作業の20~25%以上を節約する。
- 参考スコア(独自算出の注目度): 9.868826622074899
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rapid progress in imitation learning, foundation models, and large-scale datasets has led to robot manipulation policies that generalize to a wide-range of tasks and environments. However, rigorous evaluation of these policies remains a challenge. Typically in practice, robot policies are often evaluated on a small number of hardware trials without any statistical assurances. We present SureSim, a framework to augment large-scale simulation with relatively small-scale real-world testing to provide reliable inferences on the real-world performance of a policy. Our key idea is to formalize the problem of combining real and simulation evaluations as a prediction-powered inference problem, in which a small number of paired real and simulation evaluations are used to rectify bias in large-scale simulation. We then leverage non-asymptotic mean estimation algorithms to provide confidence intervals on mean policy performance. Using physics-based simulation, we evaluate both diffusion policy and multi-task fine-tuned \(\pi_0\) on a joint distribution of objects and initial conditions, and find that our approach saves over \(20-25\%\) of hardware evaluation effort to achieve similar bounds on policy performance.
- Abstract(参考訳): 模倣学習、基礎モデル、大規模データセットの急速な進歩は、幅広いタスクや環境に一般化するロボット操作ポリシーにつながった。
しかし、これらの政策の厳格な評価は依然として課題である。
通常、実際のロボットポリシーは、統計的な保証なしに少数のハードウェアトライアルで評価されることが多い。
本稿では,比較的小規模な実世界テストによる大規模シミュレーションを向上するフレームワークであるSureSimについて述べる。
我々のキーとなる考え方は、大規模シミュレーションにおけるバイアスの是正に少数のペア実数とシミュレーション評価を用いる予測駆動推論問題として、実数とシミュレーション評価を組み合わせることの問題を定式化することである。
次に,非漸近平均推定アルゴリズムを活用し,平均政策性能に対する信頼区間を提供する。
物理シミュレーションを用いて,対象物と初期条件の連立分布上での拡散ポリシとマルチタスク微調整 \(\pi_0\) の両面を評価した結果,本手法は,類似の条件を満たすため,ハードウェア評価作業の \(20-25\%\) 以上を節約できることがわかった。
関連論文リスト
- Pseudo-Simulation for Autonomous Driving [66.1981253104508]
既存の自動運転車(AV)の評価パラダイムは、重大な制限に直面している。
現実世界の評価は、安全上の懸念と現実主義の欠如のためにしばしば困難である。
オープンループ評価は、一般的に複合的なエラーを見落としているメトリクスに依存する。
論文 参考訳(メタデータ) (2025-06-04T17:57:53Z) - NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking [65.24988062003096]
我々は,視覚に基づく運転ポリシーをベンチマークするフレームワークであるNAVSIMを提案する。
我々のシミュレーションは非反応性であり、評価された政策と環境は互いに影響を与えない。
NAVSIMはCVPR 2024で開催され、143チームが433のエントリーを提出し、いくつかの新たな洞察を得た。
論文 参考訳(メタデータ) (2024-06-21T17:59:02Z) - Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - How Generalizable Is My Behavior Cloning Policy? A Statistical Approach to Trustworthy Performance Evaluation [17.638831964639834]
行動クローニングポリシーは、人間のデモンストレーションから学ぶことで複雑なタスクを解決することに成功している。
本稿では,任意の環境下でのロボット性能について,より低バウンドなフレームワークを提案する。
実験では,シミュレーションとハードウェアの両方におけるビジュモータ操作のポリシーを評価する。
論文 参考訳(メタデータ) (2024-05-08T22:00:35Z) - Marginalized Importance Sampling for Off-Environment Policy Evaluation [13.824507564510503]
強化学習法(Reinforcement Learning, RL)は、通常、サンプル非効率であり、実世界のロボットでRLポリティエの訓練と展開が困難である。
本稿では,エージェントポリシーを実環境にデプロイする前に,エージェントポリシーの現実的性能を評価するための新しいアプローチを提案する。
提案手法では,実世界のオフラインデータとともにシミュレータを組み込んで,任意のポリシーの性能評価を行う。
論文 参考訳(メタデータ) (2023-09-04T20:52:04Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。