論文の概要: Sample-Efficient Automated Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2009.01555v3
- Date: Wed, 17 Mar 2021 14:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 07:09:07.040910
- Title: Sample-Efficient Automated Deep Reinforcement Learning
- Title(参考訳): サンプル効率の高い自動深層強化学習
- Authors: J\"org K.H. Franke, Gregor K\"ohler, Andr\'e Biedenkapp, Frank Hutter
- Abstract要約: 本稿では、任意のオフポリティックなRLアルゴリズムをメタ最適化する、人口ベース自動RLフレームワークを提案する。
集団全体で収集した経験を共有することで,メタ最適化のサンプル効率を大幅に向上させる。
我々は,MuJoCoベンチマークスイートで人気のTD3アルゴリズムを用いたケーススタディにおいて,サンプル効率のよいAutoRLアプローチの能力を実証した。
- 参考スコア(独自算出の注目度): 33.53903358611521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant progress in challenging problems across various domains,
applying state-of-the-art deep reinforcement learning (RL) algorithms remains
challenging due to their sensitivity to the choice of hyperparameters. This
sensitivity can partly be attributed to the non-stationarity of the RL problem,
potentially requiring different hyperparameter settings at various stages of
the learning process. Additionally, in the RL setting, hyperparameter
optimization (HPO) requires a large number of environment interactions,
hindering the transfer of the successes in RL to real-world applications. In
this work, we tackle the issues of sample-efficient and dynamic HPO in RL. We
propose a population-based automated RL (AutoRL) framework to meta-optimize
arbitrary off-policy RL algorithms. In this framework, we optimize the
hyperparameters and also the neural architecture while simultaneously training
the agent. By sharing the collected experience across the population, we
substantially increase the sample efficiency of the meta-optimization. We
demonstrate the capabilities of our sample-efficient AutoRL approach in a case
study with the popular TD3 algorithm in the MuJoCo benchmark suite, where we
reduce the number of environment interactions needed for meta-optimization by
up to an order of magnitude compared to population-based training.
- Abstract(参考訳): 様々な領域にまたがる課題のかなりの進展にもかかわらず、ハイパーパラメータの選択に敏感であるため、最先端の深層強化学習(rl)アルゴリズムの適用は依然として困難である。
この感度は、学習過程の様々な段階で異なるハイパーパラメータ設定を必要とする可能性があるRL問題の非定常性に起因する。
さらに、RL設定では、ハイパーパラメータ最適化(HPO)は多数の環境相互作用を必要とし、RLの成功を現実のアプリケーションに移すことを妨げる。
本稿では,RLにおける試料効率および動的HPOの問題に取り組む。
本稿では、任意のオフポリシーRLアルゴリズムをメタ最適化する、人口ベース自動RL(AutoRL)フレームワークを提案する。
本フレームワークでは,エージェントを同時にトレーニングしながら,ハイパーパラメータとニューラルアーキテクチャを最適化する。
収集した経験を集団間で共有することで,メタ最適化のサンプル効率を大幅に向上させる。
サンプル効率の高いautorlアプローチの能力を,mujocoベンチマークスイートで人気のtd3アルゴリズムを用いたケーススタディで実証し,メタ最適化に必要な環境インタラクションの数を,人口ベースのトレーニングと比較して最大1桁削減した。
関連論文リスト
- ARLBench: Flexible and Efficient Benchmarking for Hyperparameter Optimization in Reinforcement Learning [42.33815055388433]
ARLBenchは強化学習(RL)におけるハイパーパラメータ最適化(HPO)のベンチマークである
様々なHPOアプローチの比較が可能であり、高い効率で評価できる。
ARLBenchはAutoRLの研究のための効率的で柔軟性があり、未来志向の基盤である。
論文 参考訳(メタデータ) (2024-09-27T15:22:28Z) - A Benchmark Environment for Offline Reinforcement Learning in Racing Games [54.83171948184851]
オフライン強化学習(英語: Offline Reinforcement Learning、ORL)は、従来の強化学習(RL)の高サンプリング複雑さを減らすための有望なアプローチである。
本稿では,ORL研究のための新しい環境であるOfflineManiaを紹介する。
TrackManiaシリーズにインスパイアされ、Unity 3Dゲームエンジンで開発された。
論文 参考訳(メタデータ) (2024-07-12T16:44:03Z) - Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning [18.579378919155864]
我々は、追加のサンプルを必要としない最適化手順の非定常性を考慮するために、Adaptive $Q$Network (AdaQN)を提案する。
AdaQNは理論上は健全で、MuJoCo制御問題やAtari 2600のゲームで実証的に検証されている。
論文 参考訳(メタデータ) (2024-05-25T11:57:43Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - AutoRL Hyperparameter Landscapes [69.15927869840918]
強化学習(Reinforcement Learning, RL)は印象的な結果を生み出すことができるが、その使用はハイパーパラメータがパフォーマンスに与える影響によって制限されている。
我々は,これらのハイパーパラメータの景観を1つの時間だけではなく,複数の時間内に構築し,解析する手法を提案する。
これは、ハイパーパラメータがトレーニング中に動的に調整されるべきであるという理論を支持し、ランドスケープ解析によって得られるAutoRL問題に関するさらなる洞察の可能性を示している。
論文 参考訳(メタデータ) (2023-04-05T12:14:41Z) - Auto-FedRL: Federated Hyperparameter Optimization for
Multi-institutional Medical Image Segmentation [48.821062916381685]
Federated Learning(FL)は、明示的なデータ共有を避けながら協調的なモデルトレーニングを可能にする分散機械学習技術である。
本稿では,Auto-FedRLと呼ばれる,効率的な強化学習(RL)に基づくフェデレーションハイパーパラメータ最適化アルゴリズムを提案する。
提案手法の有効性は,CIFAR-10データセットと2つの実世界の医用画像セグメンテーションデータセットの不均一なデータ分割に対して検証される。
論文 参考訳(メタデータ) (2022-03-12T04:11:42Z) - Hyperparameter Tuning for Deep Reinforcement Learning Applications [0.3553493344868413]
本稿では,分散可変長遺伝的アルゴリズムを用いて,様々なRLアプリケーションに対してハイパーパラメータをチューニングする手法を提案する。
以上の結果から, より世代を要し, トレーニングエピソードが少なく, 計算コストも安価で, デプロイの堅牢性も高い最適解が得られた。
論文 参考訳(メタデータ) (2022-01-26T20:43:13Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - On the Importance of Hyperparameter Optimization for Model-based
Reinforcement Learning [27.36718899899319]
モデルベース強化学習(MBRL)はデータ効率のよい制御を学習するための有望なフレームワークである。
MBRLは通常、新しい問題やドメインに適用する前に、重要な人間の専門知識が必要です。
論文 参考訳(メタデータ) (2021-02-26T18:57:47Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。