論文の概要: Is Your Imitation Learning Policy Better than Mine? Policy Comparison with Near-Optimal Stopping
- arxiv url: http://arxiv.org/abs/2503.10966v1
- Date: Fri, 14 Mar 2025 00:21:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:06:37.550771
- Title: Is Your Imitation Learning Policy Better than Mine? Policy Comparison with Near-Optimal Stopping
- Title(参考訳): 模倣学習政策は私より優れているか?
- Authors: David Snyder, Asher James Hancock, Apurva Badithela, Emma Dixon, Patrick Miller, Rares Andrei Ambrus, Anirudha Majumdar, Masha Itkina, Haruki Nishimura,
- Abstract要約: 本稿では,小サンプルサイズ体制における2つの政策を厳密に比較するための新しい統計枠組みを提案する。
実験では、ほぼ最適に停止し、研究者が評価を中止し、最小限の試行で決定を下せることを示す。
- 参考スコア(独自算出の注目度): 17.222170618610594
- License:
- Abstract: Imitation learning has enabled robots to perform complex, long-horizon tasks in challenging dexterous manipulation settings. As new methods are developed, they must be rigorously evaluated and compared against corresponding baselines through repeated evaluation trials. However, policy comparison is fundamentally constrained by a small feasible sample size (e.g., 10 or 50) due to significant human effort and limited inference throughput of policies. This paper proposes a novel statistical framework for rigorously comparing two policies in the small sample size regime. Prior work in statistical policy comparison relies on batch testing, which requires a fixed, pre-determined number of trials and lacks flexibility in adapting the sample size to the observed evaluation data. Furthermore, extending the test with additional trials risks inducing inadvertent p-hacking, undermining statistical assurances. In contrast, our proposed statistical test is sequential, allowing researchers to decide whether or not to run more trials based on intermediate results. This adaptively tailors the number of trials to the difficulty of the underlying comparison, saving significant time and effort without sacrificing probabilistic correctness. Extensive numerical simulation and real-world robot manipulation experiments show that our test achieves near-optimal stopping, letting researchers stop evaluation and make a decision in a near-minimal number of trials. Specifically, it reduces the number of evaluation trials by up to 40% as compared to state-of-the-art baselines, while preserving the probabilistic correctness and statistical power of the comparison. Moreover, our method is strongest in the most challenging comparison instances (requiring the most evaluation trials); in a multi-task comparison scenario, we save the evaluator more than 200 simulation rollouts.
- Abstract(参考訳): 模倣学習によってロボットは、巧妙な操作設定に挑戦する上で、複雑で長期にわたるタスクを実行できるようになった。
新たな手法が開発されるには, 評価試験を繰り返し, 対応する基準線に対して厳格に評価し, 比較しなければならない。
しかしながら、政策比較は、人的努力とポリシーの推測スループットの制限により、小さな可能なサンプルサイズ(例:10または50)によって基本的に制限される。
本稿では,小サンプルサイズ体制における2つの政策を厳密に比較するための新しい統計枠組みを提案する。
統計政策比較における以前の作業は、固定された事前決定された試行数を必要とするバッチテストに依存しており、観察された評価データにサンプルサイズを適用する際の柔軟性が欠如している。
さらに、テストを拡張して、不注意なpハックを引き起こし、統計的保証を損なう新たな試行のリスクを負う。
対照的に、提案した統計テストは逐次的であり、中間結果に基づいてさらなる試行を行うか否かを研究者が決定できる。
これは、基礎となる比較の難しさに対する試行回数を適応的に調整し、確率的正しさを犠牲にすることなく、かなりの時間と労力を節約する。
大規模な数値シミュレーションと実世界のロボット操作実験により、我々のテストは最適に近い停止を達成し、研究者が評価を中止し、最小限の試行で決定できることを示した。
具体的には、比較の確率的正しさと統計的パワーを保ちながら、最先端のベースラインと比較して、評価試験の回数を最大40%削減する。
さらに,本手法は,最も困難な比較事例(最も高い評価試験を必要とする)において最強であり,マルチタスク比較シナリオでは,200以上のシミュレーションロールアウトを省く。
関連論文リスト
- Towards Reliable Testing for Multiple Information Retrieval System Comparisons [2.9180406633632523]
我々は、シミュレーションおよび実TRECデータを用いて、複数の比較手順の信頼性を評価するために、新しいアプローチを用いる。
実験により、ウィルコクソンとベンジャミン・ホックバーグの補正は、典型的なサンプルサイズの重要度に応じてタイプIの誤差率をもたらすことが示された。
論文 参考訳(メタデータ) (2025-01-07T16:48:21Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - AdaStop: adaptive statistical testing for sound comparisons of Deep RL agents [17.481638913280403]
本稿では,一組のアルゴリズムの性能を比較するための理論的に健全な手法を提案する。
AdaStopは、複数のグループシーケンシャルテストに基づく新しい統計テストである。
論文 参考訳(メタデータ) (2023-06-19T12:22:56Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Sequential Kernelized Independence Testing [101.22966794822084]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - Private Sequential Hypothesis Testing for Statisticians: Privacy, Error
Rates, and Sample Size [24.149533870085175]
我々は、Renyi差分プライバシーとして知られる、差分プライバシーのわずかな変種の下で、シーケンシャル仮説テスト問題を研究する。
我々は,Wald's Sequential Probability Ratio Test (SPRT)に基づく新たなプライベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-04-10T04:15:50Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Challenges in Statistical Analysis of Data Collected by a Bandit
Algorithm: An Empirical Exploration in Applications to Adaptively Randomized
Experiments [11.464963616709671]
多腕バンディットアルゴリズムは、適応的ランダム化実験に有用であると何十年も議論されてきた。
バンディットアルゴリズムThompson Sampling (TS) を用いて, 3つの大学で適応実験を行った。
TSを用いたデータ収集はFalse Positive Rate(FPR)とFalse Negative Rate(FNR)を2倍にすることができることを示す。
論文 参考訳(メタデータ) (2021-03-22T22:05:18Z) - Minimax Off-Policy Evaluation for Multi-Armed Bandits [58.7013651350436]
有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。
3つの設定でミニマックスレート・オプティマティックな手順を開発。
論文 参考訳(メタデータ) (2021-01-19T18:55:29Z) - Two-Sample Testing on Ranked Preference Data and the Role of Modeling
Assumptions [57.77347280992548]
本稿では,ペアワイズ比較データとランキングデータのための2サンプル試験を設計する。
私たちのテストでは、基本的に分布に関する仮定は必要ありません。
実世界のペアワイズ比較データに2サンプルテストを適用することで、人によって提供される評価とランキングは、実際は異なる分散である、と結論付ける。
論文 参考訳(メタデータ) (2020-06-21T20:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。