論文の概要: Tuning Mixed Input Hyperparameters on the Fly for Efficient Population
Based AutoRL
- arxiv url: http://arxiv.org/abs/2106.15883v1
- Date: Wed, 30 Jun 2021 08:15:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 15:25:21.416287
- Title: Tuning Mixed Input Hyperparameters on the Fly for Efficient Population
Based AutoRL
- Title(参考訳): 効率的な人口ベースオートrlのためのフライ型混合入力ハイパーパラメータのチューニング
- Authors: Jack Parker-Holder and Vu Nguyen and Shaan Desai and Stephen Roberts
- Abstract要約: 連続変数とカテゴリー変数の両方を最適化する新しい効率的な階層的アプローチを導入する。
データ拡張と他のハイパーパラメータ間の依存を明示的にモデル化することで、一般化が向上することを示す。
- 参考スコア(独自算出の注目度): 12.135280422000635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite a series of recent successes in reinforcement learning (RL), many RL
algorithms remain sensitive to hyperparameters. As such, there has recently
been interest in the field of AutoRL, which seeks to automate design decisions
to create more general algorithms. Recent work suggests that population based
approaches may be effective AutoRL algorithms, by learning hyperparameter
schedules on the fly. In particular, the PB2 algorithm is able to achieve
strong performance in RL tasks by formulating online hyperparameter
optimization as time varying GP-bandit problem, while also providing
theoretical guarantees. However, PB2 is only designed to work for continuous
hyperparameters, which severely limits its utility in practice. In this paper
we introduce a new (provably) efficient hierarchical approach for optimizing
both continuous and categorical variables, using a new time-varying bandit
algorithm specifically designed for the population based training regime. We
evaluate our approach on the challenging Procgen benchmark, where we show that
explicitly modelling dependence between data augmentation and other
hyperparameters improves generalization.
- Abstract(参考訳): 近年の強化学習(RL)の成功にもかかわらず、多くのRLアルゴリズムはハイパーパラメータに敏感である。
そのため、より一般的なアルゴリズムを作成するために設計判断を自動化しようとするautorlの分野に最近関心が寄せられている。
近年の研究では,高パラメータのスケジュールをオンザフライで学習することで,人口ベースアプローチがAutoRLアルゴリズムの有効性を示すことが示唆されている。
特に、PB2アルゴリズムは、時間変化GP帯域問題としてオンラインハイパーパラメータ最適化を定式化し、理論的保証を提供することにより、RLタスクにおいて高い性能を達成することができる。
しかし、pb2は継続的なハイパーパラメータのみで動作するように設計されているため、実用性が著しく制限される。
本稿では,人口ベース学習体制に特化して設計された時間変化バンディットアルゴリズムを用いて,連続変数とカテゴリー変数の両方を最適化する,より効率的な階層的手法を提案する。
本稿では,データ拡張と他のハイパーパラメータ間の依存を明示的にモデル化することで,一般化が向上することを示す。
関連論文リスト
- ARLBench: Flexible and Efficient Benchmarking for Hyperparameter Optimization in Reinforcement Learning [42.33815055388433]
ARLBenchは強化学習(RL)におけるハイパーパラメータ最適化(HPO)のベンチマークである
様々なHPOアプローチの比較が可能であり、高い効率で評価できる。
ARLBenchはAutoRLの研究のための効率的で柔軟性があり、未来志向の基盤である。
論文 参考訳(メタデータ) (2024-09-27T15:22:28Z) - Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning [18.579378919155864]
我々は、追加のサンプルを必要としない最適化手順の非定常性を考慮するために、Adaptive $Q$Network (AdaQN)を提案する。
AdaQNは理論上は健全で、MuJoCo制御問題やAtari 2600のゲームで実証的に検証されている。
論文 参考訳(メタデータ) (2024-05-25T11:57:43Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - AutoRL Hyperparameter Landscapes [69.15927869840918]
強化学習(Reinforcement Learning, RL)は印象的な結果を生み出すことができるが、その使用はハイパーパラメータがパフォーマンスに与える影響によって制限されている。
我々は,これらのハイパーパラメータの景観を1つの時間だけではなく,複数の時間内に構築し,解析する手法を提案する。
これは、ハイパーパラメータがトレーニング中に動的に調整されるべきであるという理論を支持し、ランドスケープ解析によって得られるAutoRL問題に関するさらなる洞察の可能性を示している。
論文 参考訳(メタデータ) (2023-04-05T12:14:41Z) - Path Planning using Reinforcement Learning: A Policy Iteration Approach [0.0]
本研究は、強化学習パラメータに関連する設計空間の探索に光を当てることを目的としている。
本稿では,これらのパラメータを探索するプロセスの高速化を目的とした,自動チューニングに基づく順序回帰手法を提案する。
当社のアプローチでは,従来の最先端技術よりも平均1.48倍のスピードアップで1.82倍のピークスピードアップを実現している。
論文 参考訳(メタデータ) (2023-03-13T23:44:40Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Automatic tuning of hyper-parameters of reinforcement learning
algorithms using Bayesian optimization with behavioral cloning [0.0]
強化学習(RL)では、学習エージェントが収集したデータの情報内容は多くのハイパーパラメータの設定に依存する。
本研究では,ベイズ最適化を用いた自律的ハイパーパラメータ設定手法を提案する。
実験は、他の手作業による調整や最適化ベースのアプローチと比較して、有望な結果を示している。
論文 参考訳(メタデータ) (2021-12-15T13:10:44Z) - Online hyperparameter optimization by real-time recurrent learning [57.01871583756586]
ニューラルネットワーク(rnn)におけるハイパーパラメータ最適化とパラメータ学習の類似性を活用した。
RNNのための学習済みのオンライン学習アルゴリズムのファミリーを適応させ、ハイパーパラメータとネットワークパラメータを同時に調整します。
この手順は、通常の方法に比べて、ウォールクロック時間のほんの少しで、体系的に一般化性能が向上する。
論文 参考訳(メタデータ) (2021-02-15T19:36:18Z) - Cost-Efficient Online Hyperparameter Optimization [94.60924644778558]
実験の単一実行でヒトのエキスパートレベルのパフォーマンスに達するオンラインHPOアルゴリズムを提案します。
提案するオンラインhpoアルゴリズムは,実験の1回で人間のエキスパートレベルのパフォーマンスに到達できるが,通常のトレーニングに比べて計算オーバーヘッドは少ない。
論文 参考訳(メタデータ) (2021-01-17T04:55:30Z) - Sample-Efficient Automated Deep Reinforcement Learning [33.53903358611521]
本稿では、任意のオフポリティックなRLアルゴリズムをメタ最適化する、人口ベース自動RLフレームワークを提案する。
集団全体で収集した経験を共有することで,メタ最適化のサンプル効率を大幅に向上させる。
我々は,MuJoCoベンチマークスイートで人気のTD3アルゴリズムを用いたケーススタディにおいて,サンプル効率のよいAutoRLアプローチの能力を実証した。
論文 参考訳(メタデータ) (2020-09-03T10:04:06Z) - Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization [71.03797261151605]
適応性は現代最適化理論において重要であるが、研究されていない性質である。
提案アルゴリズムは,PL目標に対して既存のアルゴリズムよりも優れた性能を保ちながら,PL目標に対して最適な収束性を実現することを実証した。
論文 参考訳(メタデータ) (2020-02-13T05:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。