論文の概要: Hyperparameters in Reinforcement Learning and How To Tune Them
- arxiv url: http://arxiv.org/abs/2306.01324v1
- Date: Fri, 2 Jun 2023 07:48:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 16:24:59.997346
- Title: Hyperparameters in Reinforcement Learning and How To Tune Them
- Title(参考訳): 強化学習におけるハイパーパラメータとチューニング方法
- Authors: Theresa Eimer, Marius Lindauer, Roberta Raileanu
- Abstract要約: 深層強化学習におけるハイパーパラメータの選択は,エージェントの最終的な性能とサンプル効率に大きな影響を及ぼすことを示す。
我々は,シードのチューニングとテストの分離など,AutoMLから確立されたベストプラクティスを採用することを提案する。
我々は、最先端のHPOツールを、RLアルゴリズムや環境を手作りのツールと比較することで、これをサポートする。
- 参考スコア(独自算出の注目度): 25.782420501870295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In order to improve reproducibility, deep reinforcement learning (RL) has
been adopting better scientific practices such as standardized evaluation
metrics and reporting. However, the process of hyperparameter optimization
still varies widely across papers, which makes it challenging to compare RL
algorithms fairly. In this paper, we show that hyperparameter choices in RL can
significantly affect the agent's final performance and sample efficiency, and
that the hyperparameter landscape can strongly depend on the tuning seed which
may lead to overfitting. We therefore propose adopting established best
practices from AutoML, such as the separation of tuning and testing seeds, as
well as principled hyperparameter optimization (HPO) across a broad search
space. We support this by comparing multiple state-of-the-art HPO tools on a
range of RL algorithms and environments to their hand-tuned counterparts,
demonstrating that HPO approaches often have higher performance and lower
compute overhead. As a result of our findings, we recommend a set of best
practices for the RL community, which should result in stronger empirical
results with fewer computational costs, better reproducibility, and thus faster
progress. In order to encourage the adoption of these practices, we provide
plug-and-play implementations of the tuning algorithms used in this paper at
https://github.com/facebookresearch/how-to-autorl.
- Abstract(参考訳): 再現性を向上させるため, 深層強化学習(RL)は, 標準化された評価指標や報告などの科学的実践を取り入れている。
しかし、ハイパーパラメータ最適化のプロセスは論文によって大きく異なるため、RLアルゴリズムを公平に比較することは困難である。
本稿では、RLにおけるハイパーパラメータ選択がエージェントの最終的な性能とサンプル効率に大きく影響し、ハイパーパラメータのランドスケープが過度に適合する可能性のあるチューニングシードに強く依存できることを示す。
そこで本研究では,種子のチューニングとテストの分離やhpo(principald hyperparameter optimization)といった,automlから確立されたベストプラクティスを採用することを提案する。
我々は、様々なRLアルゴリズムや環境上の複数の最先端HPOツールと手動で調整したツールを比較し、HPOアプローチが高パフォーマンスで計算オーバーヘッドが低いことを示す。
その結果, 計算コストの低減, 再現性の向上, 進行速度の向上などにより, より強力な実験結果が得られることが示唆された。
これらのプラクティスの採用を促進するため,本稿で使用されるチューニングアルゴリズムのプラグイン・アンド・プレイ実装について,https://github.com/facebookresearch/how-to-autorlで紹介する。
関連論文リスト
- ARLBench: Flexible and Efficient Benchmarking for Hyperparameter Optimization in Reinforcement Learning [42.33815055388433]
ARLBenchは強化学習(RL)におけるハイパーパラメータ最適化(HPO)のベンチマークである
様々なHPOアプローチの比較が可能であり、高い効率で評価できる。
ARLBenchはAutoRLの研究のための効率的で柔軟性があり、未来志向の基盤である。
論文 参考訳(メタデータ) (2024-09-27T15:22:28Z) - PriorBand: Practical Hyperparameter Optimization in the Age of Deep
Learning [49.92394599459274]
我々は,Deep Learning(DL)パイプラインに適したHPOアルゴリズムであるPresideBandを提案する。
各種のDLベンチマークでその堅牢性を示し、情報的専門家のインプットと、専門家の信条の低さに対してその利得を示す。
論文 参考訳(メタデータ) (2023-06-21T16:26:14Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - AutoRL Hyperparameter Landscapes [69.15927869840918]
強化学習(Reinforcement Learning, RL)は印象的な結果を生み出すことができるが、その使用はハイパーパラメータがパフォーマンスに与える影響によって制限されている。
我々は,これらのハイパーパラメータの景観を1つの時間だけではなく,複数の時間内に構築し,解析する手法を提案する。
これは、ハイパーパラメータがトレーニング中に動的に調整されるべきであるという理論を支持し、ランドスケープ解析によって得られるAutoRL問題に関するさらなる洞察の可能性を示している。
論文 参考訳(メタデータ) (2023-04-05T12:14:41Z) - A Framework for History-Aware Hyperparameter Optimisation in
Reinforcement Learning [8.659973888018781]
強化学習(RL)システムは、システムの性能に影響を与える一連の初期条件に依存する。
これらのトレードオフを軽減するため,複雑なイベント処理と時間モデルの統合に基づくフレームワークを提案する。
提案手法を,RLの変種であるDQNを用いた5Gモバイル通信ケーススタディで検証した。
論文 参考訳(メタデータ) (2023-03-09T11:30:40Z) - Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。
実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文 参考訳(メタデータ) (2022-05-26T12:51:32Z) - Auto-FedRL: Federated Hyperparameter Optimization for
Multi-institutional Medical Image Segmentation [48.821062916381685]
Federated Learning(FL)は、明示的なデータ共有を避けながら協調的なモデルトレーニングを可能にする分散機械学習技術である。
本稿では,Auto-FedRLと呼ばれる,効率的な強化学習(RL)に基づくフェデレーションハイパーパラメータ最適化アルゴリズムを提案する。
提案手法の有効性は,CIFAR-10データセットと2つの実世界の医用画像セグメンテーションデータセットの不均一なデータ分割に対して検証される。
論文 参考訳(メタデータ) (2022-03-12T04:11:42Z) - Hyperparameter Tuning for Deep Reinforcement Learning Applications [0.3553493344868413]
本稿では,分散可変長遺伝的アルゴリズムを用いて,様々なRLアプリケーションに対してハイパーパラメータをチューニングする手法を提案する。
以上の結果から, より世代を要し, トレーニングエピソードが少なく, 計算コストも安価で, デプロイの堅牢性も高い最適解が得られた。
論文 参考訳(メタデータ) (2022-01-26T20:43:13Z) - Automatic tuning of hyper-parameters of reinforcement learning
algorithms using Bayesian optimization with behavioral cloning [0.0]
強化学習(RL)では、学習エージェントが収集したデータの情報内容は多くのハイパーパラメータの設定に依存する。
本研究では,ベイズ最適化を用いた自律的ハイパーパラメータ設定手法を提案する。
実験は、他の手作業による調整や最適化ベースのアプローチと比較して、有望な結果を示している。
論文 参考訳(メタデータ) (2021-12-15T13:10:44Z) - Online hyperparameter optimization by real-time recurrent learning [57.01871583756586]
ニューラルネットワーク(rnn)におけるハイパーパラメータ最適化とパラメータ学習の類似性を活用した。
RNNのための学習済みのオンライン学習アルゴリズムのファミリーを適応させ、ハイパーパラメータとネットワークパラメータを同時に調整します。
この手順は、通常の方法に比べて、ウォールクロック時間のほんの少しで、体系的に一般化性能が向上する。
論文 参考訳(メタデータ) (2021-02-15T19:36:18Z) - Sample-Efficient Automated Deep Reinforcement Learning [33.53903358611521]
本稿では、任意のオフポリティックなRLアルゴリズムをメタ最適化する、人口ベース自動RLフレームワークを提案する。
集団全体で収集した経験を共有することで,メタ最適化のサンプル効率を大幅に向上させる。
我々は,MuJoCoベンチマークスイートで人気のTD3アルゴリズムを用いたケーススタディにおいて,サンプル効率のよいAutoRLアプローチの能力を実証した。
論文 参考訳(メタデータ) (2020-09-03T10:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。