論文の概要: Beyond Binary Success: Sample-Efficient and Statistically Rigorous Robot Policy Comparison
- arxiv url: http://arxiv.org/abs/2603.13616v1
- Date: Fri, 13 Mar 2026 21:47:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-28 17:42:31.5953
- Title: Beyond Binary Success: Sample-Efficient and Statistically Rigorous Robot Policy Comparison
- Title(参考訳): 二元的成功を超えて: 有効で統計的に厳格なロボット政策の比較
- Authors: David Snyder, Apurva Badithela, Nikolai Matni, George Pappas, Anirudha Majumdar, Masha Itkina, Haruki Nishimura,
- Abstract要約: 汎用的なロボット操作ポリシーはますます有能になりつつあるが、少数のハードウェアロールアウトに限られている。
本研究は, サンプル効率が高く, 統計的に厳密で, 実際に使用される幅広い評価指標に適用可能な, ロボット政策比較のための新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 17.732982117200425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalist robot manipulation policies are becoming increasingly capable, but are limited in evaluation to a small number of hardware rollouts. This strong resource constraint in real-world testing necessitates both more informative performance measures and reliable and efficient evaluation procedures to properly assess model capabilities and benchmark progress in the field. This work presents a novel framework for robot policy comparison that is sample-efficient, statistically rigorous, and applicable to a broad set of evaluation metrics used in practice. Based on safe, anytime-valid inference (SAVI), our test procedure is sequential, allowing the evaluator to stop early when sufficient statistical evidence has accumulated to reach a decision at a pre-specified level of confidence. Unlike previous work developed for binary success, our unified approach addresses a wide range of informative metrics: from discrete partial credit task progress to continuous measures of episodic reward or trajectory smoothness, spanning both parametric and nonparametric comparison problems. Through extensive validation on simulated and real-world evaluation data, we demonstrate up to 70% reduction in evaluation burden compared to standard batch methods and up to 50% reduction compared to state-of-the-art sequential procedures designed for binary outcomes, with no loss of statistical rigor. Notably, our empirical results show that competing policies can be separated more quickly when using fine-grained task progress than binary success metrics.
- Abstract(参考訳): 汎用的なロボット操作ポリシーはますます有能になりつつあるが、少数のハードウェアロールアウトに限られている。
実世界のテストにおけるこの強いリソース制約は、現場におけるモデルの能力とベンチマークの進捗を適切に評価するために、より情報的なパフォーマンス測定と信頼性と効率的な評価手順の両方を必要とする。
本研究は, サンプル効率が高く, 統計的に厳密で, 実際に使用される幅広い評価指標に適用可能な, ロボット政策比較のための新しい枠組みを提案する。
安全かつ有意な推論 (SAVI) に基づいて、我々のテスト手順は逐次的であり、十分な統計的証拠が蓄積されたときに評価者が所定の信頼度で決定に達するのを早めに止めることができる。
二元的成功のために開発された従来の研究とは異なり、我々の統一されたアプローチは、離散的な部分的信用タスクの進行から、パラメトリックと非パラメトリックの比較問題の両方にまたがる、漸進的な報酬や軌道の滑らかさの連続的な測定まで、幅広い情報的指標に対処する。
シミュレーションおよび実世界の評価データに対する広範囲な検証を通じて、標準的なバッチ手法と比較して最大70%評価負担を削減し、統計的厳密さを損なうことなく、バイナリ結果に設計した最先端のシーケンシャルな手順と比較して最大50%削減することを示した。
特に、我々の経験的結果は、二進的成功指標よりもきめ細かなタスク進捗を使用する場合、競合するポリシーをより迅速に分離できることを示している。
関連論文リスト
- Verified Critical Step Optimization for LLM Agents [67.05296684575445]
クリティカルステップ最適化は、検証されたクリティカルステップに優先学習を集中する。
メソッドは、専門家のデモンストレーションではなく、失敗するポリシーの軌道から始まります。
GAIA-Text-103とXBench-DeepSearchの実験では、CSOはSFTベースラインよりも37%、相対的に26%改善している。
論文 参考訳(メタデータ) (2026-02-03T11:41:02Z) - Reliable and Scalable Robot Policy Evaluation with Imperfect Simulators [9.868826622074899]
SureSimは、比較的小さな実世界のテストで大規模なシミュレーションを強化するためのフレームワークである。
我々は,非漸近平均推定アルゴリズムを利用して,平均政策性能に対する信頼区間を提供する。
当社のアプローチは,同様のポリシ性能の限界を達成するため,ハードウェア評価作業の20~25%以上を節約する。
論文 参考訳(メタデータ) (2025-10-05T20:37:53Z) - Is Your Imitation Learning Policy Better than Mine? Policy Comparison with Near-Optimal Stopping [17.222170618610594]
本稿では,小サンプルサイズ体制における2つの政策を厳密に比較するための新しい統計枠組みを提案する。
実験では、ほぼ最適に停止し、研究者が評価を中止し、最小限の試行で決定を下せることを示す。
論文 参考訳(メタデータ) (2025-03-14T00:21:48Z) - Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [69.1820058966619]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。