論文の概要: Empirical Design in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.01315v2
- Date: Tue, 29 Oct 2024 17:44:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 02:59:30.459356
- Title: Empirical Design in Reinforcement Learning
- Title(参考訳): 強化学習における実証設計
- Authors: Andrew Patterson, Samuel Neumann, Martha White, Adam White,
- Abstract要約: 現在、数十のタスクに対して数百万のパラメータを持つエージェントのベンチマークが一般的であり、それぞれが30日間の経験に相当するものを使用している。
これらの実験の規模は、特にアルゴリズムの比較において、適切な統計的証拠の必要性と矛盾することが多い。
この写本は、行動への呼びかけと、強化学習において優れた実験を行うための包括的なリソースの両方を表現している。
- 参考スコア(独自算出の注目度): 23.873958977534993
- License:
- Abstract: Empirical design in reinforcement learning is no small task. Running good experiments requires attention to detail and at times significant computational resources. While compute resources available per dollar have continued to grow rapidly, so have the scale of typical experiments in reinforcement learning. It is now common to benchmark agents with millions of parameters against dozens of tasks, each using the equivalent of 30 days of experience. The scale of these experiments often conflict with the need for proper statistical evidence, especially when comparing algorithms. Recent studies have highlighted how popular algorithms are sensitive to hyper-parameter settings and implementation details, and that common empirical practice leads to weak statistical evidence (Machado et al., 2018; Henderson et al., 2018). Here we take this one step further. This manuscript represents both a call to action, and a comprehensive resource for how to do good experiments in reinforcement learning. In particular, we cover: the statistical assumptions underlying common performance measures, how to properly characterize performance variation and stability, hypothesis testing, special considerations for comparing multiple agents, baseline and illustrative example construction, and how to deal with hyper-parameters and experimenter bias. Throughout we highlight common mistakes found in the literature and the statistical consequences of those in example experiments. The objective of this document is to provide answers on how we can use our unprecedented compute to do good science in reinforcement learning, as well as stay alert to potential pitfalls in our empirical design.
- Abstract(参考訳): 強化学習における経験的設計は簡単な作業ではない。
優れた実験を行うには、細部や時には重要な計算資源に注意する必要がある。
ドル当たりの計算資源は急速に増え続けているが、強化学習における典型的な実験の規模も大きい。
現在、数十のタスクに対して数百万のパラメータを持つエージェントのベンチマークが一般的であり、それぞれが30日間の経験に相当するものを使用している。
これらの実験の規模は、特にアルゴリズムの比較において、適切な統計的証拠の必要性と矛盾することが多い。
最近の研究は、一般的なアルゴリズムがハイパーパラメータの設定や実装の詳細にどのように敏感であるかを強調しており、一般的な経験的実践は弱い統計的証拠をもたらす(Machado et al , 2018; Henderson et al , 2018)。
ここでは、これを一歩進める。
この写本は、行動への呼びかけと、強化学習において優れた実験を行うための包括的なリソースの両方を表現している。
特に、共通性能測定の基礎となる統計的仮定、性能変動と安定性を適切に評価する方法、仮説テスト、複数のエージェントの比較のための特別な考察、ベースラインとイラストラティブな例構築、ハイパーパラメータと実験者バイアスの扱いについて述べる。
全体を通して、文献に見られる一般的な誤りと、事例実験における文献の統計的結果を強調した。
この文書の目的は、我々の前例のない計算を使って強化学習に優れた科学を学べるか、また、経験的設計における潜在的な落とし穴への警告を与えることである。
関連論文リスト
- Towards Explainable Test Case Prioritisation with Learning-to-Rank Models [6.289767078502329]
テストケース優先順位付け(TCP)は、ソフトウェアが進化するにつれて品質を確保するために回帰テストにおいて重要なタスクである。
我々は、異なる説明を必要とするシナリオと、TCPの特異性がそれらにどのように影響するかを提示し、議論する。
論文 参考訳(メタデータ) (2024-05-22T16:11:45Z) - TESSERACT: Eliminating Experimental Bias in Malware Classification
across Space and Time (Extended Version) [18.146377453918724]
マルウェア検知器は、常に進化するオペレーティングシステムや攻撃方法によって、しばしば性能劣化を経験する。
本論文は, 検出作業における2つの実験バイアス源により, 一般的に報告される結果が膨らんでいることを論じる。
論文 参考訳(メタデータ) (2024-02-02T12:27:32Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - MetaKernel: Learning Variational Random Features with Limited Labels [120.90737681252594]
少数の注釈付きサンプルから学習し、新しいタスクでうまく一般化できるという根本的かつ困難な問題に、少数のショットラーニングが対処します。
マルチショット学習のためのランダムなフーリエ機能を備えたメタラーニングカーネルをMeta Kernelと呼びます。
論文 参考訳(メタデータ) (2021-05-08T21:24:09Z) - Demystification of Few-shot and One-shot Learning [63.58514532659252]
近年,単発学習や単発学習が活発かつ集中的な研究の対象となっている。
学習機械の環境的あるいは潜在的な決定空間が、この空間にある大きな種類の物体よりも十分に高次元であれば、いくつかの例から容易に学習できることを示す。
論文 参考訳(メタデータ) (2021-04-25T14:47:05Z) - Challenges in Statistical Analysis of Data Collected by a Bandit
Algorithm: An Empirical Exploration in Applications to Adaptively Randomized
Experiments [11.464963616709671]
多腕バンディットアルゴリズムは、適応的ランダム化実験に有用であると何十年も議論されてきた。
バンディットアルゴリズムThompson Sampling (TS) を用いて, 3つの大学で適応実験を行った。
TSを用いたデータ収集はFalse Positive Rate(FPR)とFalse Negative Rate(FNR)を2倍にすることができることを示す。
論文 参考訳(メタデータ) (2021-03-22T22:05:18Z) - Knowledge-driven Data Construction for Zero-shot Evaluation in
Commonsense Question Answering [80.60605604261416]
本稿では,共通認識課題にまたがるゼロショット質問応答のための新しいニューラルシンボリック・フレームワークを提案する。
言語モデル、トレーニング体制、知識ソース、データ生成戦略のセットを変えて、タスク間の影響を測定します。
個別の知識グラフは特定のタスクに適しているが、グローバルな知識グラフはさまざまなタスクに対して一貫した利得をもたらす。
論文 参考訳(メタデータ) (2020-11-07T22:52:21Z) - With Little Power Comes Great Responsibility [54.96675741328462]
アンダーパワー実験により、統計的ノイズと有意義なモデル改善の違いを識別することがより困難になる。
小さなテストセットは、ほとんどの試行錯誤が、最先端のモデルと比較しても、十分なパワーが得られないことを意味している。
機械翻訳では,2000文の典型的テストセットが約75%のパワーで1 BLEU点の差を検出する。
論文 参考訳(メタデータ) (2020-10-13T18:00:02Z) - What Neural Networks Memorize and Why: Discovering the Long Tail via
Influence Estimation [37.5845376458136]
ディープラーニングアルゴリズムは、トレーニングデータの適合性が非常によく知られている。
このようなフィッティングには、トレーニングデータラベルの記憶が必要である。
本稿では,この現象の理論的説明を2つの知見の組み合わせに基づいて提案する。
論文 参考訳(メタデータ) (2020-08-09T10:12:28Z) - Showing Your Work Doesn't Always Work [73.63200097493576]
『Show Your Work: Improved Reporting of Experimental Results』では、最高の学習モデルの有効性を報告している。
解析的にそれらの推定器は偏りがあり、エラーを起こしやすい仮定を用いていることを示す。
我々は、偏見のない代替案を導き、統計的シミュレーションから経験的な証拠で主張を裏付ける。
論文 参考訳(メタデータ) (2020-04-28T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。