論文の概要: On the Importance of Hyperparameter Optimization for Model-based
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.13651v1
- Date: Fri, 26 Feb 2021 18:57:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-01 13:55:58.422719
- Title: On the Importance of Hyperparameter Optimization for Model-based
Reinforcement Learning
- Title(参考訳): モデルベース強化学習におけるハイパーパラメータ最適化の重要性について
- Authors: Baohe Zhang, Raghu Rajan, Luis Pineda, Nathan Lambert, Andr\'e
Biedenkapp, Kurtland Chua, Frank Hutter, Roberto Calandra
- Abstract要約: モデルベース強化学習(MBRL)はデータ効率のよい制御を学習するための有望なフレームワークである。
MBRLは通常、新しい問題やドメインに適用する前に、重要な人間の専門知識が必要です。
- 参考スコア(独自算出の注目度): 27.36718899899319
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Model-based Reinforcement Learning (MBRL) is a promising framework for
learning control in a data-efficient manner. MBRL algorithms can be fairly
complex due to the separate dynamics modeling and the subsequent planning
algorithm, and as a result, they often possess tens of hyperparameters and
architectural choices. For this reason, MBRL typically requires significant
human expertise before it can be applied to new problems and domains. To
alleviate this problem, we propose to use automatic hyperparameter optimization
(HPO). We demonstrate that this problem can be tackled effectively with
automated HPO, which we demonstrate to yield significantly improved performance
compared to human experts. In addition, we show that tuning of several MBRL
hyperparameters dynamically, i.e. during the training itself, further improves
the performance compared to using static hyperparameters which are kept fixed
for the whole training. Finally, our experiments provide valuable insights into
the effects of several hyperparameters, such as plan horizon or learning rate
and their influence on the stability of training and resulting rewards.
- Abstract(参考訳): モデルベース強化学習(MBRL)はデータ効率のよい制御を学習するための有望なフレームワークである。
MBRLアルゴリズムは、別々の動的モデリングとその後の計画アルゴリズムのためにかなり複雑になり、結果として数十のハイパーパラメータとアーキテクチャ上の選択を持つことが多い。
このため、MBRLは通常、新しい問題やドメインに適用する前に、重要な人間の専門知識を必要とします。
この問題を軽減するため,我々は自動ハイパーパラメータ最適化(hpo)を提案する。
我々は,この問題を自動化hpoによって効果的に解決できることを実証し,人間専門家に比べて大幅に性能が向上することを実証した。
さらに,複数のmbrlハイパーパラメータのチューニングが動的に行われることを示す。
トレーニング自体において、トレーニング全体のために固定された静的ハイパーパラメータを使用するよりも、パフォーマンスがさらに向上する。
最後に,我々の実験は,プランホライズンや学習率などの超パラメータの影響や,トレーニングの安定性や報酬に対する影響について,貴重な洞察を与えてくれる。
関連論文リスト
- Efficient Hyperparameter Importance Assessment for CNNs [1.7778609937758323]
本稿では,畳み込みニューラルネットワーク(CNN)におけるハイパーパラメータの重み付けを,N-RReliefFというアルゴリズムを用いて定量化する。
我々は10の人気のある画像分類データセットから1万以上のCNNモデルをトレーニングし、広範囲にわたる研究を行う。
論文 参考訳(メタデータ) (2024-10-11T15:47:46Z) - Optimization Hyper-parameter Laws for Large Language Models [56.322914260197734]
ハイパーパラメータとトレーニング結果の関係をキャプチャするフレームワークであるOps-Lawsを提案する。
さまざまなモデルサイズとデータスケールにわたる検証は、Opt-Lawsのトレーニング損失を正確に予測する能力を示しています。
このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-09-07T09:37:19Z) - Interactive Hyperparameter Optimization in Multi-Objective Problems via
Preference Learning [65.51668094117802]
我々は多目的機械学習(ML)に適した人間中心型対話型HPO手法を提案する。
ユーザが自分のニーズに最も適した指標を推測する代わりに、私たちのアプローチは自動的に適切な指標を学習します。
論文 参考訳(メタデータ) (2023-09-07T09:22:05Z) - AutoRL Hyperparameter Landscapes [69.15927869840918]
強化学習(Reinforcement Learning, RL)は印象的な結果を生み出すことができるが、その使用はハイパーパラメータがパフォーマンスに与える影響によって制限されている。
我々は,これらのハイパーパラメータの景観を1つの時間だけではなく,複数の時間内に構築し,解析する手法を提案する。
これは、ハイパーパラメータがトレーニング中に動的に調整されるべきであるという理論を支持し、ランドスケープ解析によって得られるAutoRL問題に関するさらなる洞察の可能性を示している。
論文 参考訳(メタデータ) (2023-04-05T12:14:41Z) - AUTOMATA: Gradient Based Data Subset Selection for Compute-Efficient
Hyper-parameter Tuning [72.54359545547904]
ハイパーパラメータチューニングのための勾配に基づくサブセット選択フレームワークを提案する。
ハイパーパラメータチューニングに勾配ベースのデータサブセットを用いることで、3$times$-30$times$のターンアラウンド時間とスピードアップが大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-03-15T19:25:01Z) - Hyperparameter Tuning for Deep Reinforcement Learning Applications [0.3553493344868413]
本稿では,分散可変長遺伝的アルゴリズムを用いて,様々なRLアプリケーションに対してハイパーパラメータをチューニングする手法を提案する。
以上の結果から, より世代を要し, トレーニングエピソードが少なく, 計算コストも安価で, デプロイの堅牢性も高い最適解が得られた。
論文 参考訳(メタデータ) (2022-01-26T20:43:13Z) - On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。
本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文 参考訳(メタデータ) (2021-11-16T15:24:59Z) - To tune or not to tune? An Approach for Recommending Important
Hyperparameters [2.121963121603413]
機械学習モデルの性能とハイパーパラメータの関係を構築して、トレンドを発見し、洞察を得ることを検討する。
この結果から,ユーザが時間を要するチューニング戦略を実行する価値があるかどうかを判断することが可能になる。
論文 参考訳(メタデータ) (2021-08-30T08:54:58Z) - Efficient Hyperparameter Optimization for Physics-based Character
Animation [1.2183405753834562]
本稿では,DRLに基づく文字制御システムの高パラメータ最適化のための,新しいカリキュラムベースのマルチフィデリティベイズ最適化フレームワーク(CMFBO)を提案する。
提案アルゴリズムは,DeepMimicの著者がリリースした設定と比較して,少なくとも5倍の効率向上が得られることを示す。
論文 参考訳(メタデータ) (2021-04-26T06:46:36Z) - Sample-Efficient Automated Deep Reinforcement Learning [33.53903358611521]
本稿では、任意のオフポリティックなRLアルゴリズムをメタ最適化する、人口ベース自動RLフレームワークを提案する。
集団全体で収集した経験を共有することで,メタ最適化のサンプル効率を大幅に向上させる。
我々は,MuJoCoベンチマークスイートで人気のTD3アルゴリズムを用いたケーススタディにおいて,サンプル効率のよいAutoRLアプローチの能力を実証した。
論文 参考訳(メタデータ) (2020-09-03T10:04:06Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。