論文の概要: Generalized Population-Based Training for Hyperparameter Optimization in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2404.08233v1
- Date: Fri, 12 Apr 2024 04:23:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 15:55:31.077942
- Title: Generalized Population-Based Training for Hyperparameter Optimization in Reinforcement Learning
- Title(参考訳): 強化学習におけるハイパーパラメータ最適化のための一般人口ベーストレーニング
- Authors: Hui Bai, Ran Cheng,
- Abstract要約: 一般人口ベーストレーニング(GPBT)とペアワイズ学習(PL)
PLは、パフォーマンスの差を識別し、パフォーマンスの低いエージェントに対する全体的なガイダンスを提供するために、包括的なペアワイズ戦略を採用している。
- 参考スコア(独自算出の注目度): 10.164982368785854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hyperparameter optimization plays a key role in the machine learning domain. Its significance is especially pronounced in reinforcement learning (RL), where agents continuously interact with and adapt to their environments, requiring dynamic adjustments in their learning trajectories. To cater to this dynamicity, the Population-Based Training (PBT) was introduced, leveraging the collective intelligence of a population of agents learning simultaneously. However, PBT tends to favor high-performing agents, potentially neglecting the explorative potential of agents on the brink of significant advancements. To mitigate the limitations of PBT, we present the Generalized Population-Based Training (GPBT), a refined framework designed for enhanced granularity and flexibility in hyperparameter adaptation. Complementing GPBT, we further introduce Pairwise Learning (PL). Instead of merely focusing on elite agents, PL employs a comprehensive pairwise strategy to identify performance differentials and provide holistic guidance to underperforming agents. By integrating the capabilities of GPBT and PL, our approach significantly improves upon traditional PBT in terms of adaptability and computational efficiency. Rigorous empirical evaluations across a range of RL benchmarks confirm that our approach consistently outperforms not only the conventional PBT but also its Bayesian-optimized variant.
- Abstract(参考訳): ハイパーパラメータ最適化は、機械学習領域において重要な役割を果たす。
その重要性は特に強化学習(RL)において顕著であり、エージェントは継続的に環境に適応し、学習軌跡の動的調整を必要とする。
このダイナミクスに対応するために、同時に学習するエージェントの集団知性を活用して、人口ベーストレーニング(PBT)が導入された。
しかしながら、PBTは高いパフォーマンスのエージェントを好む傾向にあり、大きな進歩の瀬戸際において、エージェントの爆発的ポテンシャルを無視する可能性がある。
PBTの限界を軽減するために,超パラメータ適応における粒度と柔軟性の向上を目的とした改良されたフレームワークであるGPBT(Generalized Population-Based Training)を提案する。
GPBTを補完し、さらにペアワイズラーニング(PL)を導入する。
PLは単にエリートエージェントに焦点を当てるのではなく、パフォーマンスの差を識別し、パフォーマンスの低いエージェントに対する全体的なガイダンスを提供するために、包括的なペアワイズ戦略を採用している。
GPBT と PL の機能を統合することで,従来の PBT よりも適応性と計算効率が大幅に向上する。
様々なRLベンチマークにおける厳密な経験的評価は、我々のアプローチが従来のPBTだけでなくベイズ最適化の変種よりも一貫して優れていることを証明している。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Hierarchical Preference Optimization: Learning to achieve goals via feasible subgoals prediction [71.81851971324187]
本研究は階層型強化学習(HRL)の新しいアプローチである階層型優先度最適化(HPO)を導入する。
HPOは、複雑なロボット制御タスクを解く際に、非定常性と非実用的なサブゴール生成の問題に対処する。
挑戦的なロボットナビゲーションと操作タスクの実験はHPOの素晴らしいパフォーマンスを示しており、ベースラインよりも最大35%改善されている。
論文 参考訳(メタデータ) (2024-11-01T04:58:40Z) - Simultaneous Training of First- and Second-Order Optimizers in Population-Based Reinforcement Learning [0.0]
人口ベーストレーニング(PBT)は、トレーニング全体を通してハイパーパラメータを継続的にチューニングすることで、これを実現する方法を提供する。
本稿では,単一個体群内における第1次と第2次の両方を同時に活用することにより,PBTの強化を提案する。
論文 参考訳(メタデータ) (2024-08-27T21:54:26Z) - Optimization-Derived Learning with Essential Convergence Analysis of
Training and Hyper-training [52.39882976848064]
固定点反復に基づく一般化クラスノセルスキーマンスキースキーム(GKM)を基本ODLモジュールとして設計する。
GKMスキームでは、最適トレーニングとハイパートレーニング変数を同時に解くために、バイレベルメタ最適化(BMO)アルゴリズムフレームワークを構築している。
論文 参考訳(メタデータ) (2022-06-16T01:50:25Z) - Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。
実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文 参考訳(メタデータ) (2022-05-26T12:51:32Z) - Faster Improvement Rate Population Based Training [7.661301899629696]
本稿では、人口ベーストレーニング(PBT)の問題に対処する高速改善率PBT(FIRE PBT)を提案する。
我々は、新しいフィットネス指標を導き、それを使って、一部の人口構成員が長期的なパフォーマンスに集中できるようにします。
実験の結果、FIRE PBTはImageNetベンチマークでPBTより優れており、手動学習率のスケジュールでトレーニングされたネットワークの性能と一致していることがわかった。
論文 参考訳(メタデータ) (2021-09-28T15:30:55Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Data Efficient Training for Reinforcement Learning with Adaptive
Behavior Policy Sharing [29.283554268767805]
大規模医療やレコメンデーションシステムといった実世界の応用において、深層RLモデルのトレーニングは困難である。
本稿では、行動ポリシーによって収集された経験の共有を可能にするデータ効率のトレーニングアルゴリズムである適応行動ポリシー共有(ABPS)を提案する。
論文 参考訳(メタデータ) (2020-02-12T20:35:31Z) - Regularized Evolutionary Population-Based Training [11.624954122221562]
本稿では、DNNの重みのトレーニングと損失関数のメタラーニングをインターリーブするEPBT(Population-Based Training)アルゴリズムを提案する。
EPBTは画像分類ベンチマークを高速かつ正確に学習する。
論文 参考訳(メタデータ) (2020-02-11T06:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。