論文の概要: AdaStop: adaptive statistical testing for sound comparisons of Deep RL agents
- arxiv url: http://arxiv.org/abs/2306.10882v3
- Date: Thu, 12 Dec 2024 09:03:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 15:57:55.599463
- Title: AdaStop: adaptive statistical testing for sound comparisons of Deep RL agents
- Title(参考訳): AdaStop:Deep RLエージェントの音響比較のための適応統計的検定
- Authors: Timothée Mathieu, Riccardo Della Vecchia, Alena Shilova, Matheus Medeiros Centa, Hector Kohler, Odalric-Ambrym Maillard, Philippe Preux,
- Abstract要約: 本稿では,一組のアルゴリズムの性能を比較するための理論的に健全な手法を提案する。
AdaStopは、複数のグループシーケンシャルテストに基づく新しい統計テストである。
- 参考スコア(独自算出の注目度): 17.481638913280403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, the scientific community has questioned the statistical reproducibility of many empirical results, especially in the field of machine learning. To contribute to the resolution of this reproducibility crisis, we propose a theoretically sound methodology for comparing the performance of a set of algorithms. We exemplify our methodology in Deep Reinforcement Learning (Deep RL). The performance of one execution of a Deep RL algorithm is a random variable. Therefore, several independent executions are needed to evaluate its performance. When comparing algorithms with random performance, a major question concerns the number of executions to perform to ensure that the result of the comparison is theoretically sound. Researchers in Deep RL often use less than 5 independent executions to compare algorithms: we claim that this is not enough in general. Moreover, when comparing more than 2 algorithms at once, we have to use a multiple tests procedure to preserve low error guarantees. We introduce AdaStop, a new statistical test based on multiple group sequential tests. When used to compare algorithms, AdaStop adapts the number of executions to stop as early as possible while ensuring that enough information has been collected to distinguish algorithms that have different score distributions. We prove theoretically that AdaStop has a low probability of making a (family-wise) error. We illustrate the effectiveness of AdaStop in various use-cases, including toy examples and Deep RL algorithms on challenging Mujoco environments. AdaStop is the first statistical test fitted to this sort of comparisons: it is both a significant contribution to statistics, and an important contribution to computational studies performed in reinforcement learning and in other domains.
- Abstract(参考訳): 近年、科学コミュニティは、特に機械学習の分野で、多くの経験的な結果の統計的再現性に疑問を呈している。
本稿では,この再現性危機の解決に寄与するため,一組のアルゴリズムの性能を比較するための理論的に健全な手法を提案する。
深層強化学習(Deep RL)における方法論を実証する。
Deep RLアルゴリズムの1つの実行のパフォーマンスはランダム変数である。
そのため、その性能を評価するにはいくつかの独立した実行が必要である。
アルゴリズムをランダムな性能と比較する場合、大きな疑問は、比較の結果が理論的に健全であることを保証するために実行すべき実行回数に関するものである。
Deep RLの研究者たちは、アルゴリズムの比較に5つ未満の独立した実行を使用することが多い。
さらに、一度に2つ以上のアルゴリズムを比較する際には、エラーの少ない保証を維持するために複数のテスト手順を使わなければなりません。
複数のグループシーケンシャルテストに基づく新しい統計テストであるAdaStopを紹介する。
アルゴリズムの比較に使用する場合、AdaStopは実行回数を可能な限り早く停止させ、スコア分布が異なるアルゴリズムを識別するために十分な情報が収集されていることを保証します。
理論的には、AdaStopは(家庭的に)エラーを起こす確率が低いことを証明している。
本稿では,様々なユースケースにおけるAdaStopの有効性について述べる。例えば,おもちゃの例やDeep RLアルゴリズムは,Mujoco環境の挑戦に有効である。
AdaStopはこの種の比較に適合する初めての統計テストであり、統計学への重要な貢献であり、強化学習やその他の分野における計算研究への重要な貢献である。
関連論文リスト
- Is Your Imitation Learning Policy Better than Mine? Policy Comparison with Near-Optimal Stopping [17.222170618610594]
本稿では,小サンプルサイズ体制における2つの政策を厳密に比較するための新しい統計枠組みを提案する。
実験では、ほぼ最適に停止し、研究者が評価を中止し、最小限の試行で決定を下せることを示す。
論文 参考訳(メタデータ) (2025-03-14T00:21:48Z) - Scaling Test-Time Compute Without Verification or RL is Suboptimal [70.28430200655919]
RL法や検索法に基づく検証器ベース (VB) 手法による微調整は, 一定量の計算・データ予算を条件として, 蒸留・クローニングに基づく検証器フリー (VF) 手法よりもはるかに優れていることを示す。
我々は,3/8Bの事前学習型LLMのドクティクスと数学推論の両問題に対して,我々の理論を実証的に相関させ,テスト時間計算のスケーリングには検証が不可欠であることを確認した。
論文 参考訳(メタデータ) (2025-02-17T18:43:24Z) - Simple and Provable Scaling Laws for the Test-Time Compute of Large Language Models [70.07661254213181]
大規模言語モデルのテスト時間計算のための2つの原理的アルゴリズムを提案する。
理論的には、1つのアルゴリズムの故障確率は、そのテスト時間計算が大きくなるにつれて指数関数的に減衰する。
論文 参考訳(メタデータ) (2024-11-29T05:29:47Z) - Batch Bayesian Optimization for Replicable Experimental Design [56.64902148159355]
多くの実世界の設計問題は、大規模で異質な観測ノイズのため、複数の実験条件を並列に評価し、各条件を複数回再現する。
本稿では,3つのアルゴリズムを含むReplicable Experimental Designフレームワークのバッチトンプソンサンプリングを提案する。
我々は,アルゴリズムの有効性を,精密農業とAutoMLの2つの実世界の応用例で示す。
論文 参考訳(メタデータ) (2023-11-02T12:46:03Z) - Toward Cost-effective Adaptive Random Testing: An Approximate Nearest Neighbor Approach [6.431858417308008]
Adaptive Random Testing (ART)は、ランダムテスト(RT)のテスト効率(障害検出機能を含む)を高める
多くのARTアルゴリズムが研究されており、FSCS(Fixed-Size-Candidate-Set ART)やRRT(Restricted Random Testing)などがある。
論文 参考訳(メタデータ) (2023-05-27T15:37:13Z) - Sequential Kernelized Independence Testing [101.22966794822084]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - Reliable validation of Reinforcement Learning Benchmarks [1.2031796234206134]
強化学習(Reinforcement Learning, RL)は、ゲームAIとAI全般において、最もダイナミックな研究分野の1つである。
Atariのような異なるアルゴリズムを比較するためにスコアが使用されるベンチマーク環境はたくさんあります。
実験結果の検証を行うために,元の実験データへのアクセスを提供することにより,この状況を改善することを提案する。
論文 参考訳(メタデータ) (2022-03-02T12:55:27Z) - Ranking with Confidence for Large Scale Comparison Data [1.2183405753834562]
本研究では、比較ノイズを考慮した生成データモデルを用いて、ペア比較から高速で正確で情報的なランク付けを行う。
実データでは、PD-Rankは、アクティブな学習方法よりも同じKendallアルゴリズムを達成するのに、計算時間が少ない。
論文 参考訳(メタデータ) (2022-02-03T16:36:37Z) - Using Sequential Statistical Tests to Improve the Performance of Random
Search in hyperparameter Tuning [0.0]
ハイパーパラメータチューニングは、機械学習において最も時間を要する部分の1つである。
そこで本研究では、リサンプリング回数を最小限に抑え、下位パラメータ設定を検出するためのシーケンシャルなテスト手順を提案する。
論文 参考訳(メタデータ) (2021-12-23T10:02:04Z) - Algorithms for Adaptive Experiments that Trade-off Statistical Analysis
with Reward: Combining Uniform Random Assignment and Reward Maximization [50.725191156128645]
トンプソンサンプリングのようなマルチアームバンディットアルゴリズムは適応的な実験を行うのに利用できる。
統計的解析のための一様ランダム化の利点を組み合わせた2つのアルゴリズムを探索する2つのアーム実験のシミュレーションを提案する。
論文 参考訳(メタデータ) (2021-12-15T22:11:58Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - A Fast PC Algorithm with Reversed-order Pruning and A Parallelization
Strategy [22.31288740171446]
PCアルゴリズムは観測データに基づく因果構造発見のための最先端のアルゴリズムである。
条件付き独立テストが実行された場合、最悪の場合、計算コストがかかる可能性がある。
これにより、タスクが数百から数千のノードを含む場合、アルゴリズムは計算的に難解になる。
本稿では、2つのノードを独立にレンダリングする条件セットが非特異であり、特定の冗長ノードを含む場合、結果の精度を犠牲にしない、という批判的な観察を提案する。
論文 参考訳(メタデータ) (2021-09-10T02:22:10Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z) - Deep Reinforcement Learning at the Edge of the Statistical Precipice [31.178451465925555]
深部RL体制下での信頼性評価は、現場の進捗を遅らせるリスクを負うことなく、結果の不確かさを無視することはできないと論じる。
我々は,集計性能の時間間隔推定を提唱し,結果の変動性を考慮した性能プロファイルを提案する。
論文 参考訳(メタデータ) (2021-08-30T14:23:48Z) - A Pragmatic Look at Deep Imitation Learning [0.3626013617212666]
我々は6つの異なる対向的模倣学習アルゴリズムを再実装する。
広く使われている専門的軌跡データセットで評価する。
GAILは、様々なサンプルサイズにわたって、一貫してよく機能する。
論文 参考訳(メタデータ) (2021-08-04T06:33:10Z) - Efficient First-Order Contextual Bandits: Prediction, Allocation, and
Triangular Discrimination [82.52105963476703]
統計的学習、オンライン学習、その他における繰り返しのテーマは、低騒音の問題に対してより速い収束率が可能であることである。
1次保証は統計的およびオンライン学習において比較的よく理解されている。
三角識別と呼ばれる対数損失と情報理論量が一階保証を得る上で基本的な役割を担っていることを示す。
論文 参考訳(メタデータ) (2021-07-05T19:20:34Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - DPER: Efficient Parameter Estimation for Randomly Missing Data [0.24466725954625884]
本稿では,1クラス・複数クラスのランダムに欠落したデータセットに対して,最大推定値(MLE)を求めるアルゴリズムを提案する。
我々のアルゴリズムは、データを通して複数のイテレーションを必要としないので、他の方法よりも時間のかかることを約束します。
論文 参考訳(メタデータ) (2021-06-06T16:37:48Z) - Resource Allocation in Multi-armed Bandit Exploration: Overcoming
Sublinear Scaling with Adaptive Parallelism [107.48538091418412]
腕の引っ張りに様々な量の資源を割り当てることができる分割可能な資源にアクセス可能な場合,マルチアームの帯状地における探索について検討する。
特に、分散コンピューティングリソースの割り当てに重点を置いており、プル毎により多くのリソースを割り当てることで、結果をより早く得ることができます。
論文 参考訳(メタデータ) (2020-10-31T18:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。