論文の概要: Generalized Population-Based Training for Hyperparameter Optimization in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2404.08233v2
- Date: Tue, 23 Apr 2024 03:28:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 18:46:42.470529
- Title: Generalized Population-Based Training for Hyperparameter Optimization in Reinforcement Learning
- Title(参考訳): 強化学習におけるハイパーパラメータ最適化のための一般人口ベーストレーニング
- Authors: Hui Bai, Ran Cheng,
- Abstract要約: 一般人口ベーストレーニング(GPBT)とペアワイズ学習(PL)
PLは、パフォーマンスの差を識別し、パフォーマンスの低いエージェントに対する全体的なガイダンスを提供するために、包括的なペアワイズ戦略を採用している。
- 参考スコア(独自算出の注目度): 10.164982368785854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hyperparameter optimization plays a key role in the machine learning domain. Its significance is especially pronounced in reinforcement learning (RL), where agents continuously interact with and adapt to their environments, requiring dynamic adjustments in their learning trajectories. To cater to this dynamicity, the Population-Based Training (PBT) was introduced, leveraging the collective intelligence of a population of agents learning simultaneously. However, PBT tends to favor high-performing agents, potentially neglecting the explorative potential of agents on the brink of significant advancements. To mitigate the limitations of PBT, we present the Generalized Population-Based Training (GPBT), a refined framework designed for enhanced granularity and flexibility in hyperparameter adaptation. Complementing GPBT, we further introduce Pairwise Learning (PL). Instead of merely focusing on elite agents, PL employs a comprehensive pairwise strategy to identify performance differentials and provide holistic guidance to underperforming agents. By integrating the capabilities of GPBT and PL, our approach significantly improves upon traditional PBT in terms of adaptability and computational efficiency. Rigorous empirical evaluations across a range of RL benchmarks confirm that our approach consistently outperforms not only the conventional PBT but also its Bayesian-optimized variant.
- Abstract(参考訳): ハイパーパラメータ最適化は、機械学習領域において重要な役割を果たす。
その重要性は特に強化学習(RL)において顕著であり、エージェントは継続的に環境に適応し、学習軌跡の動的調整を必要とする。
このダイナミクスに対応するために、同時に学習するエージェントの集団知性を活用して、人口ベーストレーニング(PBT)が導入された。
しかしながら、PBTは高いパフォーマンスのエージェントを好む傾向にあり、大きな進歩の瀬戸際において、エージェントの爆発的ポテンシャルを無視する可能性がある。
PBTの限界を軽減するために,超パラメータ適応における粒度と柔軟性の向上を目的とした改良されたフレームワークであるGPBT(Generalized Population-Based Training)を提案する。
GPBTを補完し、さらにペアワイズラーニング(PL)を導入する。
PLは単にエリートエージェントに焦点を当てるのではなく、パフォーマンスの差を識別し、パフォーマンスの低いエージェントに対する全体的なガイダンスを提供するために、包括的なペアワイズ戦略を採用している。
GPBT と PL の機能を統合することで,従来の PBT よりも適応性と計算効率が大幅に向上する。
様々なRLベンチマークにおける厳密な経験的評価は、我々のアプローチが従来のPBTだけでなくベイズ最適化の変種よりも一貫して優れていることを証明している。
関連論文リスト
- Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Optimization-Derived Learning with Essential Convergence Analysis of
Training and Hyper-training [52.39882976848064]
固定点反復に基づく一般化クラスノセルスキーマンスキースキーム(GKM)を基本ODLモジュールとして設計する。
GKMスキームでは、最適トレーニングとハイパートレーニング変数を同時に解くために、バイレベルメタ最適化(BMO)アルゴリズムフレームワークを構築している。
論文 参考訳(メタデータ) (2022-06-16T01:50:25Z) - Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。
実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文 参考訳(メタデータ) (2022-05-26T12:51:32Z) - Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。
本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:39:48Z) - Towards Hyperparameter-free Policy Selection for Offline Reinforcement
Learning [10.457660611114457]
オフライン強化学習において、異なるトレーニングアルゴリズムによって生成される価値関数とポリシーの選択方法を示す。
我々は,近年の値関数選択の理論的進歩であるBVFT[XJ21]を用いて,Atariなどの離散作用ベンチマークにおいて,その有効性を示す。
論文 参考訳(メタデータ) (2021-10-26T20:12:11Z) - Faster Improvement Rate Population Based Training [7.661301899629696]
本稿では、人口ベーストレーニング(PBT)の問題に対処する高速改善率PBT(FIRE PBT)を提案する。
我々は、新しいフィットネス指標を導き、それを使って、一部の人口構成員が長期的なパフォーマンスに集中できるようにします。
実験の結果、FIRE PBTはImageNetベンチマークでPBTより優れており、手動学習率のスケジュールでトレーニングされたネットワークの性能と一致していることがわかった。
論文 参考訳(メタデータ) (2021-09-28T15:30:55Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - On the Importance of Hyperparameter Optimization for Model-based
Reinforcement Learning [27.36718899899319]
モデルベース強化学習(MBRL)はデータ効率のよい制御を学習するための有望なフレームワークである。
MBRLは通常、新しい問題やドメインに適用する前に、重要な人間の専門知識が必要です。
論文 参考訳(メタデータ) (2021-02-26T18:57:47Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Data Efficient Training for Reinforcement Learning with Adaptive
Behavior Policy Sharing [29.283554268767805]
大規模医療やレコメンデーションシステムといった実世界の応用において、深層RLモデルのトレーニングは困難である。
本稿では、行動ポリシーによって収集された経験の共有を可能にするデータ効率のトレーニングアルゴリズムである適応行動ポリシー共有(ABPS)を提案する。
論文 参考訳(メタデータ) (2020-02-12T20:35:31Z) - Regularized Evolutionary Population-Based Training [11.624954122221562]
本稿では、DNNの重みのトレーニングと損失関数のメタラーニングをインターリーブするEPBT(Population-Based Training)アルゴリズムを提案する。
EPBTは画像分類ベンチマークを高速かつ正確に学習する。
論文 参考訳(メタデータ) (2020-02-11T06:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。