論文の概要: On the consistency of hyper-parameter selection in value-based deep reinforcement learning
- arxiv url: http://arxiv.org/abs/2406.17523v2
- Date: Tue, 2 Jul 2024 16:33:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 06:39:57.031475
- Title: On the consistency of hyper-parameter selection in value-based deep reinforcement learning
- Title(参考訳): 値に基づく深部強化学習におけるハイパーパラメータ選択の整合性について
- Authors: Johan Obando-Ceron, João G. M. Araújo, Aaron Courville, Pablo Samuel Castro,
- Abstract要約: 本稿では,値に基づく深層強化学習エージェントのハイパーパラメータ選択の信頼性に着目した実証的研究を行う。
我々の研究は、どのハイパーパラメーターがチューニングに最も重要かを確立するのに役立ち、どのチューニングが異なるトレーニング体制間で一貫性を持ち続けるかを明らかにするのに役立ちます。
- 参考スコア(独自算出の注目度): 13.133865673667394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (deep RL) has achieved tremendous success on various domains through a combination of algorithmic design and careful selection of hyper-parameters. Algorithmic improvements are often the result of iterative enhancements built upon prior approaches, while hyper-parameter choices are typically inherited from previous methods or fine-tuned specifically for the proposed technique. Despite their crucial impact on performance, hyper-parameter choices are frequently overshadowed by algorithmic advancements. This paper conducts an extensive empirical study focusing on the reliability of hyper-parameter selection for value-based deep reinforcement learning agents, including the introduction of a new score to quantify the consistency and reliability of various hyper-parameters. Our findings not only help establish which hyper-parameters are most critical to tune, but also help clarify which tunings remain consistent across different training regimes.
- Abstract(参考訳): 深部強化学習(深部RL)は,アルゴリズム設計と高パラメータの慎重に選択することで,様々な領域で大きな成功を収めている。
アルゴリズムの改良は、しばしば以前の手法に基づく反復的な拡張の結果であり、一方、ハイパーパラメータの選択は、通常、従来の手法から継承されるか、提案手法のために特別に微調整される。
性能に重大な影響を与えるにもかかわらず、ハイパーパラメータの選択はアルゴリズムの進歩によってしばしば隠れている。
本稿では,様々なハイパーパラメータの一貫性と信頼性を定量化するための新しいスコアの導入を含む,価値に基づく深層強化学習エージェントのハイパーパラメータ選択の信頼性に着目した広範な実証的研究を行う。
我々の発見は、どのハイパーパラメーターがチューニングに最も重要かを確立するのに役立つだけでなく、異なるトレーニング体制間でどのチューニングが一貫性を持ち続けるかを明らかにするのにも役立ちます。
関連論文リスト
- Robustness of Algorithms for Causal Structure Learning to Hyperparameter
Choice [2.3020018305241337]
ハイパーパラメータチューニングは、どんなアルゴリズムでも最先端と予測性能の低さを区別することができる。
本稿では,ハイパーパラメータ選択が因果構造学習タスクに及ぼす影響について検討する。
論文 参考訳(メタデータ) (2023-10-27T15:34:08Z) - Hyperparameter Optimization for Multi-Objective Reinforcement Learning [0.27309692684728615]
強化学習(Reinforcement Learning, RL)は、複雑な問題に対処するための強力なアプローチである。
近年,多目的強化学習(MORL)の導入により,RLの範囲が拡大した。
実際には、このタスクは難しいことがしばしば証明され、これらのテクニックのデプロイが失敗に終わる。
論文 参考訳(メタデータ) (2023-10-25T09:17:25Z) - Hyperparameter Adaptive Search for Surrogate Optimization: A
Self-Adjusting Approach [1.6317061277457001]
サーロゲート最適化(SO)アルゴリズムは高価なブラックボックス関数の最適化を約束している。
提案手法は,各問題とSOアプローチに特有の最も影響力のあるハイパーパラメータを同定し,修正する。
実験により,様々なSOアルゴリズムの性能向上におけるHASSOの有効性が示された。
論文 参考訳(メタデータ) (2023-10-12T01:26:05Z) - PriorBand: Practical Hyperparameter Optimization in the Age of Deep
Learning [49.92394599459274]
我々は,Deep Learning(DL)パイプラインに適したHPOアルゴリズムであるPresideBandを提案する。
各種のDLベンチマークでその堅牢性を示し、情報的専門家のインプットと、専門家の信条の低さに対してその利得を示す。
論文 参考訳(メタデータ) (2023-06-21T16:26:14Z) - Deep Ranking Ensembles for Hyperparameter Optimization [9.453554184019108]
本稿では,メタ学習型ニューラルネットワークが構成性能のランク付けに最適化され,アンサンブルによる不確実性をモデル化する手法を提案する。
12のベースライン、16のHPO検索スペース、86のデータセット/タスクからなる大規模実験プロトコルにおいて、本手法がHPOの新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2023-03-27T13:52:40Z) - Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。
実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文 参考訳(メタデータ) (2022-05-26T12:51:32Z) - AUTOMATA: Gradient Based Data Subset Selection for Compute-Efficient
Hyper-parameter Tuning [72.54359545547904]
ハイパーパラメータチューニングのための勾配に基づくサブセット選択フレームワークを提案する。
ハイパーパラメータチューニングに勾配ベースのデータサブセットを用いることで、3$times$-30$times$のターンアラウンド時間とスピードアップが大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-03-15T19:25:01Z) - Towards Hyperparameter-free Policy Selection for Offline Reinforcement
Learning [10.457660611114457]
オフライン強化学習において、異なるトレーニングアルゴリズムによって生成される価値関数とポリシーの選択方法を示す。
我々は,近年の値関数選択の理論的進歩であるBVFT[XJ21]を用いて,Atariなどの離散作用ベンチマークにおいて,その有効性を示す。
論文 参考訳(メタデータ) (2021-10-26T20:12:11Z) - Online hyperparameter optimization by real-time recurrent learning [57.01871583756586]
ニューラルネットワーク(rnn)におけるハイパーパラメータ最適化とパラメータ学習の類似性を活用した。
RNNのための学習済みのオンライン学習アルゴリズムのファミリーを適応させ、ハイパーパラメータとネットワークパラメータを同時に調整します。
この手順は、通常の方法に比べて、ウォールクロック時間のほんの少しで、体系的に一般化性能が向上する。
論文 参考訳(メタデータ) (2021-02-15T19:36:18Z) - An Asymptotically Optimal Multi-Armed Bandit Algorithm and
Hyperparameter Optimization [48.5614138038673]
本稿では,高パラメータ探索評価のシナリオにおいて,SS (Sub-Sampling) と呼ばれる効率的で堅牢な帯域幅に基づくアルゴリズムを提案する。
また,BOSSと呼ばれる新しいパラメータ最適化アルゴリズムを開発した。
実験的な研究は、SSの理論的議論を検証し、多くのアプリケーションにおけるBOSSの優れた性能を実証する。
論文 参考訳(メタデータ) (2020-07-11T03:15:21Z) - Rethinking the Hyperparameters for Fine-tuning [78.15505286781293]
事前訓練されたImageNetモデルからの微調整は、様々なコンピュータビジョンタスクのデファクトスタンダードとなっている。
ファインチューニングの現在のプラクティスは、通常、ハイパーパラメータのアドホックな選択を選択することである。
本稿では、微調整のためのハイパーパラメータの設定に関するいくつかの一般的なプラクティスを再検討する。
論文 参考訳(メタデータ) (2020-02-19T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。