論文の概要: Hyperparameter Tuning for Deep Reinforcement Learning Applications
- arxiv url: http://arxiv.org/abs/2201.11182v1
- Date: Wed, 26 Jan 2022 20:43:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-29 05:04:02.935338
- Title: Hyperparameter Tuning for Deep Reinforcement Learning Applications
- Title(参考訳): 深層強化学習のためのハイパーパラメータチューニング
- Authors: Mariam Kiran and Melis Ozyildirim
- Abstract要約: 本稿では,分散可変長遺伝的アルゴリズムを用いて,様々なRLアプリケーションに対してハイパーパラメータをチューニングする手法を提案する。
以上の結果から, より世代を要し, トレーニングエピソードが少なく, 計算コストも安価で, デプロイの堅牢性も高い最適解が得られた。
- 参考スコア(独自算出の注目度): 0.3553493344868413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) applications, where an agent can simply learn
optimal behaviors by interacting with the environment, are quickly gaining
tremendous success in a wide variety of applications from controlling simple
pendulums to complex data centers. However, setting the right hyperparameters
can have a huge impact on the deployed solution performance and reliability in
the inference models, produced via RL, used for decision-making. Hyperparameter
search itself is a laborious process that requires many iterations and
computationally expensive to find the best settings that produce the best
neural network architectures. In comparison to other neural network
architectures, deep RL has not witnessed much hyperparameter tuning, due to its
algorithm complexity and simulation platforms needed. In this paper, we propose
a distributed variable-length genetic algorithm framework to systematically
tune hyperparameters for various RL applications, improving training time and
robustness of the architecture, via evolution. We demonstrate the scalability
of our approach on many RL problems (from simple gyms to complex applications)
and compared with Bayesian approach. Our results show that with more
generations, optimal solutions that require fewer training episodes and are
computationally cheap while being more robust for deployment. Our results are
imperative to advance deep reinforcement learning controllers for real-world
problems.
- Abstract(参考訳): 強化学習(rl)アプリケーションは、エージェントが環境と対話することによって最適な振る舞いを学習できるが、単純な振り子から複雑なデータセンターまで、さまざまなアプリケーションで急速に成功している。
しかし、適切なハイパーパラメータの設定は、RLによって生成された推論モデルにおいて、デプロイされたソリューションのパフォーマンスと信頼性に大きな影響を与える可能性がある。
ハイパーパラメータ検索自体は多くのイテレーションを必要とし、最適なニューラルネットワークアーキテクチャを生み出す最適な設定を見つけるのに計算コストがかかります。
他のニューラルネットワークアーキテクチャと比較して、アルゴリズムの複雑さとシミュレーションプラットフォームが必要なため、ディープRLはハイパーパラメータチューニングをあまり見ていない。
本稿では,様々なrlアプリケーションに対してハイパーパラメータを体系的にチューニングし,進化を通じてアーキテクチャのトレーニング時間とロバスト性を向上させる分散可変長遺伝的アルゴリズムフレームワークを提案する。
単純体育館から複雑な応用まで)多くのRL問題に対するアプローチのスケーラビリティを実証し,ベイズ的アプローチと比較した。
以上の結果から, より世代を要し, トレーニングエピソードが少なく, 計算コストが低く, デプロイに堅牢な最適解が得られた。
実世界の問題に対する深層強化学習制御の推進に本研究は不可欠である。
関連論文リスト
- Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning [18.579378919155864]
我々は、追加のサンプルを必要としない最適化手順の非定常性を考慮するために、Adaptive $Q$Network (AdaQN)を提案する。
AdaQNは理論上は健全で、MuJoCo制御問題やAtari 2600のゲームで実証的に検証されている。
論文 参考訳(メタデータ) (2024-05-25T11:57:43Z) - Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。
本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。
ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文 参考訳(メタデータ) (2024-02-27T11:52:49Z) - A Framework for History-Aware Hyperparameter Optimisation in
Reinforcement Learning [8.659973888018781]
強化学習(RL)システムは、システムの性能に影響を与える一連の初期条件に依存する。
これらのトレードオフを軽減するため,複雑なイベント処理と時間モデルの統合に基づくフレームワークを提案する。
提案手法を,RLの変種であるDQNを用いた5Gモバイル通信ケーススタディで検証した。
論文 参考訳(メタデータ) (2023-03-09T11:30:40Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Automating DBSCAN via Deep Reinforcement Learning [73.82740568765279]
本稿では,DBSCANの自動パラメータ検索フレームワークであるDRL-DBSCANを提案する。
このフレームワークは、クラスタリング環境をマルコフ決定プロセスとして知覚することで、パラメータ探索方向を調整する過程をモデル化する。
このフレームワークはDBSCANクラスタリングの精度を最大で26%、25%改善している。
論文 参考訳(メタデータ) (2022-08-09T04:40:11Z) - Bayesian Generational Population-Based Training [35.70338636901159]
Population-Based Training (PBT)は、いくつかの大規模な設定で素晴らしいパフォーマンスを実現している。
PBTスタイルの手法に2つの新しい革新を導入する。
これらのイノベーションが大きなパフォーマンス向上につながっていることを示しています。
論文 参考訳(メタデータ) (2022-07-19T16:57:38Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - On the Importance of Hyperparameter Optimization for Model-based
Reinforcement Learning [27.36718899899319]
モデルベース強化学習(MBRL)はデータ効率のよい制御を学習するための有望なフレームワークである。
MBRLは通常、新しい問題やドメインに適用する前に、重要な人間の専門知識が必要です。
論文 参考訳(メタデータ) (2021-02-26T18:57:47Z) - Sample-Efficient Automated Deep Reinforcement Learning [33.53903358611521]
本稿では、任意のオフポリティックなRLアルゴリズムをメタ最適化する、人口ベース自動RLフレームワークを提案する。
集団全体で収集した経験を共有することで,メタ最適化のサンプル効率を大幅に向上させる。
我々は,MuJoCoベンチマークスイートで人気のTD3アルゴリズムを用いたケーススタディにおいて,サンプル効率のよいAutoRLアプローチの能力を実証した。
論文 参考訳(メタデータ) (2020-09-03T10:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。