論文の概要: Betting for Sim-to-Real Performance Evaluation
- arxiv url: http://arxiv.org/abs/2604.24018v1
- Date: Mon, 27 Apr 2026 03:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.729952
- Title: Betting for Sim-to-Real Performance Evaluation
- Title(参考訳): Sim-to-Realパフォーマンス評価のための賭け
- Authors: Zaid Mahboob, Yujia Chen, Bowen Weng,
- Abstract要約: 我々は、ベッティング機構が正確かつ効率的に推定できる理論条件を開発する。
これらの近似ベッティング戦略が意図通りに機能している場合に診断する具体的な決定ルールを提供する。
また,ロボットマニピュレータの実際のピック・アンド・プレイス精度を推定するために,合成分布群を用いた実例を示した。
- 参考スコア(独自算出の注目度): 5.669264620577287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the problem of robot performance evaluation, focusing on how to obtain accurate and efficient estimates of real-world behavior under severe constraints on physical experimentation. Such estimates are essential for benchmarking algorithms, comparing design alternatives, validating controllers, and supporting certification or regulatory decision-making, yet real-world testing with physical robots is often expensive, time-consuming, and safety-limited. To mitigate the scarcity of real-world trials, sim-to-real methodologies are commonly employed, using low-cost simulators to inform, supplement, or prioritize physical experiments. Departing from (and complementary to) existing approaches in variance reduction (e.g., importance-sampling variants) or bias-correction (e.g., through prediction-powered inference or learned control variates), we examine this performance-evaluation problem through the lens of betting. We establish theoretical conditions under which a betting mechanism can yield accurate and efficient estimates (provably outperforming the Monte Carlo estimator) and we characterize how such bets should be constructed. We further develop theoretically grounded yet practically implementable approximations of the ideal bet, and we provide concrete decision rules that diagnose when these approximate betting strategies are working as intended. We demonstrate the effectiveness of the proposed methods using both synthetic examples and cross-fidelity computational simulators. Notably, we also showcase an illustrative case in which a group of synthetic distributions are used to infer the real-world pick-and-place accuracy of a robotic manipulator, a seemingly unconventional sim-to-real transfer that becomes natural and feasible under the proposed betting perspective. Programs for reproducing empirical results are available at https://github.com/ISUSAIL/Bet4Sim2Real.
- Abstract(参考訳): 本稿では,身体実験の厳しい制約下での実世界の行動の正確かつ効率的な推定方法に着目し,ロボットの性能評価の課題について考察する。
このような推定は、アルゴリズムのベンチマーク、設計代替品の比較、コントローラの検証、認証や規制決定のサポートなどには不可欠だが、物理ロボットによる現実的なテストは高価で時間を要すること、安全性に制限があることが多い。
現実世界の試行の欠如を軽減するため、シム・ツー・リアルの方法論が一般的に用いられ、低コストのシミュレータを使って物理的な実験を知らせ、補足し、優先順位付けする。
分散の低減(例えば重要サンプリングの変種)やバイアス補正(例えば、予測駆動推論や学習された制御変数)の既存のアプローチから分離し、ベッティングのレンズを通してこの性能評価問題を考察する。
我々は、賭け機構が正確かつ効率的な見積もり(モンテカルロ推定器より優れている)を得られる理論条件を確立し、そのような賭けをどのように構築すべきかを特徴づける。
我々はさらに、理論上は基礎を成すが、実際は理想的賭けの近似を実装可能とし、これらの近似的賭け戦略が意図通りに機能している場合に診断する具体的な決定ルールを提供する。
提案手法の有効性を,合成例とクロスフィデリティ計算シミュレータを用いて実証する。
また,ロボットマニピュレータの実際のピック・アンド・プレイス精度を推定するために,合成分布群を用いた図示的事例も紹介する。
実験結果を再現するプログラムはhttps://github.com/ISUSAIL/Bet4Sim2Real.comで公開されている。
関連論文リスト
- Reliable and Scalable Robot Policy Evaluation with Imperfect Simulators [9.868826622074899]
SureSimは、比較的小さな実世界のテストで大規模なシミュレーションを強化するためのフレームワークである。
我々は,非漸近平均推定アルゴリズムを利用して,平均政策性能に対する信頼区間を提供する。
当社のアプローチは,同様のポリシ性能の限界を達成するため,ハードウェア評価作業の20~25%以上を節約する。
論文 参考訳(メタデータ) (2025-10-05T20:37:53Z) - Uncertainty-Guided Expert-AI Collaboration for Efficient Soil Horizon Annotation [0.13999481573773068]
土壌プロファイルを記述するためのマルチモーダルマルチタスクモデルである$textitSoilNet$に共形予測を適用する。
我々は,モデルの不確実性が高い場合に,基本真理アノテーションを得るための限られた予算が利用できる,シミュレーションされたHILアノテーションパイプラインを設計する。
実験により、SoilNetの適合性は回帰タスクにおけるより効率的なアノテーションと分類タスクにおける同等のパフォーマンススコアをもたらすことが示された。
論文 参考訳(メタデータ) (2025-09-29T14:54:23Z) - Prediction-Powered Causal Inferences [59.98498488132307]
予測型因果推論(PPCI)に焦点をあてる
まず, 条件付きキャリブレーションにより, 人口レベルでの有効なPPCIが保証されることを示す。
次に、実験間での十分な表現制約伝達の妥当性を導入する。
論文 参考訳(メタデータ) (2025-02-10T10:52:17Z) - Testing Generalizability in Causal Inference [3.547529079746247]
機械学習アルゴリズムの一般化性を統計的に評価するための公式な手続きは存在しない。
本研究では,高次元因果推論モデルの一般化可能性を統計的に評価するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-05T11:44:00Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Validation of Composite Systems by Discrepancy Propagation [4.588222946914529]
本稿では,複合システムによる分布差度測定の限界を伝搬するバリデーション手法を提案する。
提案手法は, 種々の現実的効果を示す複合システムに対して有効かつ有用な境界を導出することを示す。
論文 参考訳(メタデータ) (2022-10-21T15:51:54Z) - DISCO: Double Likelihood-free Inference Stochastic Control [29.84276469617019]
確率自由推論のためのベイズ統計学における現代シミュレータのパワーと最近の技術を活用することを提案する。
シミュレーションパラメータの後方分布は、システムの潜在的非解析モデルによって伝播される。
実験により、制御器の提案により、古典的な制御やロボット工学のタスクにおいて、優れた性能と堅牢性が得られることが示された。
論文 参考訳(メタデータ) (2020-02-18T05:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。