論文の概要: AdaStop: sequential testing for efficient and reliable comparisons of
Deep RL Agents
- arxiv url: http://arxiv.org/abs/2306.10882v1
- Date: Mon, 19 Jun 2023 12:22:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 17:58:46.606761
- Title: AdaStop: sequential testing for efficient and reliable comparisons of
Deep RL Agents
- Title(参考訳): AdaStop:Deep RLエージェントの効率的かつ信頼性比較のためのシーケンシャルテスト
- Authors: Timoth\'ee Mathieu, Riccardo Della Vecchia, Alena Shilova, Matheus
Centa de Medeiros, Hector Kohler, Odalric-Ambrym Maillard, Philippe Preux
- Abstract要約: 複数のディープRLアルゴリズムを比較するための理論的に健全な手法を提案する。
AdaStopは、複数のグループシーケンシャルテストに基づく新しい統計テストである。
我々はAdaStopが誤りを犯す確率が低いことを理論的および実証的に証明する。
- 参考スコア(独自算出の注目度): 13.153709050373703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The reproducibility of many experimental results in Deep Reinforcement
Learning (RL) is under question. To solve this reproducibility crisis, we
propose a theoretically sound methodology to compare multiple Deep RL
algorithms. The performance of one execution of a Deep RL algorithm is random
so that independent executions are needed to assess it precisely. When
comparing several RL algorithms, a major question is how many executions must
be made and how can we assure that the results of such a comparison is
theoretically sound. Researchers in Deep RL often use less than 5 independent
executions to compare algorithms: we claim that this is not enough in general.
Moreover, when comparing several algorithms at once, the error of each
comparison accumulates and must be taken into account with a multiple tests
procedure to preserve low error guarantees. To address this problem in a
statistically sound way, we introduce AdaStop, a new statistical test based on
multiple group sequential tests. When comparing algorithms, AdaStop adapts the
number of executions to stop as early as possible while ensuring that we have
enough information to distinguish algorithms that perform better than the
others in a statistical significant way. We prove both theoretically and
empirically that AdaStop has a low probability of making an error (Family-Wise
Error). Finally, we illustrate the effectiveness of AdaStop in multiple
use-cases, including toy examples and difficult cases such as Mujoco
environments.
- Abstract(参考訳): 深層強化学習における多くの実験結果の再現性は疑問視されている。
この再現性危機を解決するために,複数のDeep RLアルゴリズムを比較する理論的に健全な手法を提案する。
Deep RLアルゴリズムの1つの実行のパフォーマンスはランダムであり、それを評価するために独立した実行が必要である。
複数のrlアルゴリズムを比較する場合、大きな疑問は、実行回数と、その比較の結果が理論的に正しいことをどうやって保証できるかである。
Deep RLの研究者たちは、アルゴリズムの比較に5つ未満の独立した実行を使用することが多い。
さらに、複数のアルゴリズムを一度に比較する場合、各比較の誤差は蓄積され、低いエラー保証を維持するために複数のテスト手順を考慮する必要がある。
統計的に健全な方法でこの問題に対処するため,複数グループ連続試験に基づく新しい統計テストであるAdaStopを導入する。
アルゴリズムを比較するとき、adastopはできるだけ早く停止する実行数に適応し、統計的に有意な方法で他のアルゴリズムよりも優れた性能を持つアルゴリズムを識別するのに十分な情報を確保します。
我々はAdaStopが誤りを犯す確率が低いことを理論的および実証的に証明する(Family-Wise Error)。
最後に、おもちゃの例やMujoco環境のような難しい事例を含む複数のユースケースでAdaStopの有効性を説明する。
関連論文リスト
- Sequential Kernelized Independence Testing [101.22966794822084]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - Reliable validation of Reinforcement Learning Benchmarks [1.2031796234206134]
強化学習(Reinforcement Learning, RL)は、ゲームAIとAI全般において、最もダイナミックな研究分野の1つである。
Atariのような異なるアルゴリズムを比較するためにスコアが使用されるベンチマーク環境はたくさんあります。
実験結果の検証を行うために,元の実験データへのアクセスを提供することにより,この状況を改善することを提案する。
論文 参考訳(メタデータ) (2022-03-02T12:55:27Z) - Ranking with Confidence for Large Scale Comparison Data [1.2183405753834562]
本研究では、比較ノイズを考慮した生成データモデルを用いて、ペア比較から高速で正確で情報的なランク付けを行う。
実データでは、PD-Rankは、アクティブな学習方法よりも同じKendallアルゴリズムを達成するのに、計算時間が少ない。
論文 参考訳(メタデータ) (2022-02-03T16:36:37Z) - Using Sequential Statistical Tests to Improve the Performance of Random
Search in hyperparameter Tuning [0.0]
ハイパーパラメータチューニングは、機械学習において最も時間を要する部分の1つである。
そこで本研究では、リサンプリング回数を最小限に抑え、下位パラメータ設定を検出するためのシーケンシャルなテスト手順を提案する。
論文 参考訳(メタデータ) (2021-12-23T10:02:04Z) - Algorithms for Adaptive Experiments that Trade-off Statistical Analysis
with Reward: Combining Uniform Random Assignment and Reward Maximization [50.725191156128645]
トンプソンサンプリングのようなマルチアームバンディットアルゴリズムは適応的な実験を行うのに利用できる。
統計的解析のための一様ランダム化の利点を組み合わせた2つのアルゴリズムを探索する2つのアーム実験のシミュレーションを提案する。
論文 参考訳(メタデータ) (2021-12-15T22:11:58Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z) - Deep Reinforcement Learning at the Edge of the Statistical Precipice [31.178451465925555]
深部RL体制下での信頼性評価は、現場の進捗を遅らせるリスクを負うことなく、結果の不確かさを無視することはできないと論じる。
我々は,集計性能の時間間隔推定を提唱し,結果の変動性を考慮した性能プロファイルを提案する。
論文 参考訳(メタデータ) (2021-08-30T14:23:48Z) - Efficient First-Order Contextual Bandits: Prediction, Allocation, and
Triangular Discrimination [82.52105963476703]
統計的学習、オンライン学習、その他における繰り返しのテーマは、低騒音の問題に対してより速い収束率が可能であることである。
1次保証は統計的およびオンライン学習において比較的よく理解されている。
三角識別と呼ばれる対数損失と情報理論量が一階保証を得る上で基本的な役割を担っていることを示す。
論文 参考訳(メタデータ) (2021-07-05T19:20:34Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - DPER: Efficient Parameter Estimation for Randomly Missing Data [0.24466725954625884]
本稿では,1クラス・複数クラスのランダムに欠落したデータセットに対して,最大推定値(MLE)を求めるアルゴリズムを提案する。
我々のアルゴリズムは、データを通して複数のイテレーションを必要としないので、他の方法よりも時間のかかることを約束します。
論文 参考訳(メタデータ) (2021-06-06T16:37:48Z) - Resource Allocation in Multi-armed Bandit Exploration: Overcoming
Sublinear Scaling with Adaptive Parallelism [107.48538091418412]
腕の引っ張りに様々な量の資源を割り当てることができる分割可能な資源にアクセス可能な場合,マルチアームの帯状地における探索について検討する。
特に、分散コンピューティングリソースの割り当てに重点を置いており、プル毎により多くのリソースを割り当てることで、結果をより早く得ることができます。
論文 参考訳(メタデータ) (2020-10-31T18:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。