論文の概要: Sample-Efficient Automated Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2009.01555v3
- Date: Wed, 17 Mar 2021 14:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 07:09:07.040910
- Title: Sample-Efficient Automated Deep Reinforcement Learning
- Title(参考訳): サンプル効率の高い自動深層強化学習
- Authors: J\"org K.H. Franke, Gregor K\"ohler, Andr\'e Biedenkapp, Frank Hutter
- Abstract要約: 本稿では、任意のオフポリティックなRLアルゴリズムをメタ最適化する、人口ベース自動RLフレームワークを提案する。
集団全体で収集した経験を共有することで,メタ最適化のサンプル効率を大幅に向上させる。
我々は,MuJoCoベンチマークスイートで人気のTD3アルゴリズムを用いたケーススタディにおいて,サンプル効率のよいAutoRLアプローチの能力を実証した。
- 参考スコア(独自算出の注目度): 33.53903358611521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant progress in challenging problems across various domains,
applying state-of-the-art deep reinforcement learning (RL) algorithms remains
challenging due to their sensitivity to the choice of hyperparameters. This
sensitivity can partly be attributed to the non-stationarity of the RL problem,
potentially requiring different hyperparameter settings at various stages of
the learning process. Additionally, in the RL setting, hyperparameter
optimization (HPO) requires a large number of environment interactions,
hindering the transfer of the successes in RL to real-world applications. In
this work, we tackle the issues of sample-efficient and dynamic HPO in RL. We
propose a population-based automated RL (AutoRL) framework to meta-optimize
arbitrary off-policy RL algorithms. In this framework, we optimize the
hyperparameters and also the neural architecture while simultaneously training
the agent. By sharing the collected experience across the population, we
substantially increase the sample efficiency of the meta-optimization. We
demonstrate the capabilities of our sample-efficient AutoRL approach in a case
study with the popular TD3 algorithm in the MuJoCo benchmark suite, where we
reduce the number of environment interactions needed for meta-optimization by
up to an order of magnitude compared to population-based training.
- Abstract(参考訳): 様々な領域にまたがる課題のかなりの進展にもかかわらず、ハイパーパラメータの選択に敏感であるため、最先端の深層強化学習(rl)アルゴリズムの適用は依然として困難である。
この感度は、学習過程の様々な段階で異なるハイパーパラメータ設定を必要とする可能性があるRL問題の非定常性に起因する。
さらに、RL設定では、ハイパーパラメータ最適化(HPO)は多数の環境相互作用を必要とし、RLの成功を現実のアプリケーションに移すことを妨げる。
本稿では,RLにおける試料効率および動的HPOの問題に取り組む。
本稿では、任意のオフポリシーRLアルゴリズムをメタ最適化する、人口ベース自動RL(AutoRL)フレームワークを提案する。
本フレームワークでは,エージェントを同時にトレーニングしながら,ハイパーパラメータとニューラルアーキテクチャを最適化する。
収集した経験を集団間で共有することで,メタ最適化のサンプル効率を大幅に向上させる。
サンプル効率の高いautorlアプローチの能力を,mujocoベンチマークスイートで人気のtd3アルゴリズムを用いたケーススタディで実証し,メタ最適化に必要な環境インタラクションの数を,人口ベースのトレーニングと比較して最大1桁削減した。
関連論文リスト
- Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - AutoRL Hyperparameter Landscapes [69.15927869840918]
強化学習(Reinforcement Learning, RL)は印象的な結果を生み出すことができるが、その使用はハイパーパラメータがパフォーマンスに与える影響によって制限されている。
我々は,これらのハイパーパラメータの景観を1つの時間だけではなく,複数の時間内に構築し,解析する手法を提案する。
これは、ハイパーパラメータがトレーニング中に動的に調整されるべきであるという理論を支持し、ランドスケープ解析によって得られるAutoRL問題に関するさらなる洞察の可能性を示している。
論文 参考訳(メタデータ) (2023-04-05T12:14:41Z) - Evolving Populations of Diverse RL Agents with MAP-Elites [1.5575376673936223]
政策だけでなく,任意の強化学習(RL)アルゴリズムの利用を可能にするフレキシブルなフレームワークを導入する。
我々は,多数のロボット制御問題に対する広範な数値実験を通じて,我々のフレームワークがもたらすメリットを実証する。
論文 参考訳(メタデータ) (2023-03-09T19:05:45Z) - Auto-FedRL: Federated Hyperparameter Optimization for
Multi-institutional Medical Image Segmentation [48.821062916381685]
Federated Learning(FL)は、明示的なデータ共有を避けながら協調的なモデルトレーニングを可能にする分散機械学習技術である。
本稿では,Auto-FedRLと呼ばれる,効率的な強化学習(RL)に基づくフェデレーションハイパーパラメータ最適化アルゴリズムを提案する。
提案手法の有効性は,CIFAR-10データセットと2つの実世界の医用画像セグメンテーションデータセットの不均一なデータ分割に対して検証される。
論文 参考訳(メタデータ) (2022-03-12T04:11:42Z) - Hyperparameter Tuning for Deep Reinforcement Learning Applications [0.3553493344868413]
本稿では,分散可変長遺伝的アルゴリズムを用いて,様々なRLアプリケーションに対してハイパーパラメータをチューニングする手法を提案する。
以上の結果から, より世代を要し, トレーニングエピソードが少なく, 計算コストも安価で, デプロイの堅牢性も高い最適解が得られた。
論文 参考訳(メタデータ) (2022-01-26T20:43:13Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Tuning Mixed Input Hyperparameters on the Fly for Efficient Population
Based AutoRL [12.135280422000635]
連続変数とカテゴリー変数の両方を最適化する新しい効率的な階層的アプローチを導入する。
データ拡張と他のハイパーパラメータ間の依存を明示的にモデル化することで、一般化が向上することを示す。
論文 参考訳(メタデータ) (2021-06-30T08:15:59Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - On the Importance of Hyperparameter Optimization for Model-based
Reinforcement Learning [27.36718899899319]
モデルベース強化学習(MBRL)はデータ効率のよい制御を学習するための有望なフレームワークである。
MBRLは通常、新しい問題やドメインに適用する前に、重要な人間の専門知識が必要です。
論文 参考訳(メタデータ) (2021-02-26T18:57:47Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。