論文の概要: Combining Automated Optimisation of Hyperparameters and Reward Shape
- arxiv url: http://arxiv.org/abs/2406.18293v2
- Date: Wed, 09 Oct 2024 14:24:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:29:18.407362
- Title: Combining Automated Optimisation of Hyperparameters and Reward Shape
- Title(参考訳): ハイパーパラメータの自動最適化と後向き形状の併用
- Authors: Julian Dierkes, Emma Cramer, Holger H. Hoos, Sebastian Trimpe,
- Abstract要約: 本稿では,ハイパーパラメータと報酬関数を組み合わせた最適化手法を提案する。
近似ポリシー最適化とソフト・アクター・クリティカルを用いた広範囲な実験を行った。
以上の結果から,統合最適化は環境の半分のベースライン性能よりも有意に向上し,他の環境との競争性能も向上することが示された。
- 参考スコア(独自算出の注目度): 7.407166175374958
- License:
- Abstract: There has been significant progress in deep reinforcement learning (RL) in recent years. Nevertheless, finding suitable hyperparameter configurations and reward functions remains challenging even for experts, and performance heavily relies on these design choices. Also, most RL research is conducted on known benchmarks where knowledge about these choices already exists. However, novel practical applications often pose complex tasks for which no prior knowledge about good hyperparameters and reward functions is available, thus necessitating their derivation from scratch. Prior work has examined automatically tuning either hyperparameters or reward functions individually. We demonstrate empirically that an RL algorithm's hyperparameter configurations and reward function are often mutually dependent, meaning neither can be fully optimised without appropriate values for the other. We then propose a methodology for the combined optimisation of hyperparameters and the reward function. Furthermore, we include a variance penalty as an optimisation objective to improve the stability of learned policies. We conducted extensive experiments using Proximal Policy Optimisation and Soft Actor-Critic on four environments. Our results show that combined optimisation significantly improves over baseline performance in half of the environments and achieves competitive performance in the others, with only a minor increase in computational costs. This suggests that combined optimisation should be best practice.
- Abstract(参考訳): 近年, 深部強化学習(RL)の進歩が著しい。
それでも、適切なハイパーパラメータ構成と報酬関数の発見は専門家にとっても困難なままであり、パフォーマンスはこれらの設計選択に大きく依存している。
また、ほとんどのRL研究は、これらの選択に関する知識がすでに存在する既知のベンチマークで行われている。
しかし、新しい実用的応用は、良いハイパーパラメータや報酬関数に関する事前の知識が得られない複雑なタスクをしばしば生み出すため、スクラッチから導出する必要が生じる。
以前の研究では、ハイパーパラメータまたは報酬関数を個別に自動チューニングすることが検討されている。
我々は、RLアルゴリズムのハイパーパラメータ構成と報酬関数が互いに依存していることを実証的に示す。
次に,超パラメータの最適化と報酬関数の併用に関する方法論を提案する。
さらに,学習方針の安定性向上のための最適化目的として,分散ペナルティを含む。
我々は, 4つの環境において, 近接政策最適化とソフト・アクター・クリティカルを用いた広範囲な実験を行った。
これらの結果から,組合せ最適化は環境の半分のベースライン性能よりも有意に向上し,他の環境での競争性能も向上し,計算コストはわずかに増大した。
これは、組み合わせた最適化がベストプラクティスであることを示唆している。
関連論文リスト
- Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Fine-Tuning Adaptive Stochastic Optimizers: Determining the Optimal Hyperparameter $ε$ via Gradient Magnitude Histogram Analysis [0.7366405857677226]
我々は、損失の大きさの経験的確率密度関数に基づく新しい枠組みを導入し、これを「緩やかな等級ヒストグラム」と呼ぶ。
そこで本稿では, 最適安全のための精密かつ高精度な探索空間を自動推定するために, 勾配等級ヒストグラムを用いた新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-20T04:34:19Z) - CoRe Optimizer: An All-in-One Solution for Machine Learning [0.0]
連続レジリエント収束(CoRe)は、他の最先端の1次勾配に基づく収束アルゴリズムと比較して優れた性能を示した。
CoReは、調査されたすべてのアプリケーションにおいて、最高の、または競争的なパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-07-28T16:48:42Z) - Pre-training helps Bayesian optimization too [49.28382118032923]
機能的事前設定のための代替的なプラクティスを模索する。
特に、より厳密な分布を事前訓練できるような、類似した関数のデータを持つシナリオを考察する。
提案手法は, 競合する手法の少なくとも3倍の効率で, 優れたハイパーパラメータを見つけることができることを示す。
論文 参考訳(メタデータ) (2022-07-07T04:42:54Z) - Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。
実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文 参考訳(メタデータ) (2022-05-26T12:51:32Z) - Batch Multi-Fidelity Bayesian Optimization with Deep Auto-Regressive
Networks [17.370056935194786]
我々は,Deep Auto-Regressive Networks (BMBO-DARN) を用いたバッチ多重忠実ベイズ最適化を提案する。
ベイズニューラルネットワークの集合を用いて、完全自己回帰モデルを構築します。
我々は,忠実度を検索することなく,単純かつ効率的なバッチクエリ手法を開発した。
論文 参考訳(メタデータ) (2021-06-18T02:55:48Z) - Optimizing Large-Scale Hyperparameters via Automated Learning Algorithm [97.66038345864095]
ゼロ階超勾配(HOZOG)を用いた新しいハイパーパラメータ最適化法を提案する。
具体的には、A型制約最適化問題として、まずハイパーパラメータ最適化を定式化する。
次に、平均ゼロ階超勾配を用いてハイパーパラメータを更新する。
論文 参考訳(メタデータ) (2021-02-17T21:03:05Z) - Quantity vs. Quality: On Hyperparameter Optimization for Deep
Reinforcement Learning [7.559006677497745]
強化学習アルゴリズムは、異なるランダムシードによるトレーニング実行間のパフォーマンスの強いばらつきを示すことができる。
我々は、悪いパフォーマーのプルーニングにより、大量のハイパーパラメータ設定を探索するのが良いか、あるいは、繰り返しを用いて収集結果の品質を目標とする方がよいかをベンチマークする。
論文 参考訳(メタデータ) (2020-07-29T05:12:34Z) - Automatic Setting of DNN Hyper-Parameters by Mixing Bayesian
Optimization and Tuning Rules [0.6875312133832078]
トレーニングおよび検証セット上で,ネットワークの結果を評価し解析するための新しいアルゴリズムを構築した。
我々は、一連のチューニングルールを使用して、新しいハイパーパラメータと/またはハイパーパラメータ検索スペースを減らし、より良い組み合わせを選択する。
論文 参考訳(メタデータ) (2020-06-03T08:53:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。