論文の概要: Simultaneous Training of First- and Second-Order Optimizers in Population-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.15421v2
- Date: Wed, 4 Sep 2024 10:17:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 19:09:05.364483
- Title: Simultaneous Training of First- and Second-Order Optimizers in Population-Based Reinforcement Learning
- Title(参考訳): 人口ベース強化学習における第1・第2次最適化者の同時学習
- Authors: Felix Pfeiffer, Shahram Eivazi,
- Abstract要約: 人口ベーストレーニング(PBT)は、トレーニング全体を通してハイパーパラメータを継続的にチューニングすることで、これを実現する方法を提供する。
本稿では,単一個体群内における第1次と第2次の両方を同時に活用することにより,PBTの強化を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The tuning of hyperparameters in reinforcement learning (RL) is critical, as these parameters significantly impact an agent's performance and learning efficiency. Dynamic adjustment of hyperparameters during the training process can significantly enhance both the performance and stability of learning. Population-based training (PBT) provides a method to achieve this by continuously tuning hyperparameters throughout the training. This ongoing adjustment enables models to adapt to different learning stages, resulting in faster convergence and overall improved performance. In this paper, we propose an enhancement to PBT by simultaneously utilizing both first- and second-order optimizers within a single population. We conducted a series of experiments using the TD3 algorithm across various MuJoCo environments. Our results, for the first time, empirically demonstrate the potential of incorporating second-order optimizers within PBT-based RL. Specifically, the combination of the K-FAC optimizer with Adam led to up to a 10% improvement in overall performance compared to PBT using only Adam. Additionally, in environments where Adam occasionally fails, such as the Swimmer environment, the mixed population with K-FAC exhibited more reliable learning outcomes, offering a significant advantage in training stability without a substantial increase in computational time.
- Abstract(参考訳): 強化学習(RL)におけるハイパーパラメータのチューニングは、これらのパラメータがエージェントのパフォーマンスと学習効率に大きな影響を及ぼすため、非常に重要である。
トレーニング過程におけるハイパーパラメータの動的調整は、学習性能と安定性の両方を著しく向上させることができる。
人口ベーストレーニング(PBT)は、トレーニング全体を通してハイパーパラメータを継続的にチューニングすることで、これを実現する方法を提供する。
この継続的な調整により、モデルは異なる学習段階に適応し、より高速な収束と全体的なパフォーマンス向上を実現する。
本稿では,単一個体群内における一階最適化と二階最適化を同時に活用することにより,PBTの強化を提案する。
我々は様々な MuJoCo 環境にまたがるTD3 アルゴリズムを用いて実験を行った。
PBT ベースの RL に 2 階最適化器を組み込むことの可能性を実証的に実証した。
具体的には、K-FACオプティマイザとAdamの組み合わせにより、Adamのみを使用したPBTと比較して、全体のパフォーマンスが10%向上した。
さらに、スイマー環境のようなアダムが時々失敗する環境では、K-FACとの混成人口はより信頼性の高い学習結果を示し、計算時間を大幅に増加させることなく、トレーニング安定性に大きな利点をもたらした。
関連論文リスト
- Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - Generalized Population-Based Training for Hyperparameter Optimization in Reinforcement Learning [10.164982368785854]
一般人口ベーストレーニング(GPBT)とペアワイズ学習(PL)
PLは、パフォーマンスの差を識別し、パフォーマンスの低いエージェントに対する全体的なガイダンスを提供するために、包括的なペアワイズ戦略を採用している。
論文 参考訳(メタデータ) (2024-04-12T04:23:20Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - An Empirical Analysis of Parameter-Efficient Methods for Debiasing
Pre-Trained Language Models [55.14405248920852]
各種言語モデルとバイアスタイプを用いたプレフィックスチューニング,プロンプトチューニング,アダプタチューニングによる実験を行い,その性能評価を行った。
パラメータ効率のよい手法は、適応調整が常に最も効果的であるジェンダーバイアスを軽減するのに有効であることがわかった。
また、早急なチューニングは、BERTよりもGPT-2に適しており、人種的・宗教的偏見に関しては、人種的・宗教的偏見が低いことが判明した。
論文 参考訳(メタデータ) (2023-06-06T23:56:18Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Optimization-Derived Learning with Essential Convergence Analysis of
Training and Hyper-training [52.39882976848064]
固定点反復に基づく一般化クラスノセルスキーマンスキースキーム(GKM)を基本ODLモジュールとして設計する。
GKMスキームでは、最適トレーニングとハイパートレーニング変数を同時に解くために、バイレベルメタ最適化(BMO)アルゴリズムフレームワークを構築している。
論文 参考訳(メタデータ) (2022-06-16T01:50:25Z) - Meta-Learning to Improve Pre-Training [38.75981465367226]
プレトレーニング(PT)とファインチューニング(FT)は、ニューラルネットワークのトレーニングに有効な方法である。
PTは、タスクとデータ再重み付け戦略、拡張ポリシー、ノイズモデルなど、さまざまな設計選択を組み込むことができる。
メタ学習型PTハイパーパラメータに対する効率よく勾配に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-02T17:26:50Z) - Faster Improvement Rate Population Based Training [7.661301899629696]
本稿では、人口ベーストレーニング(PBT)の問題に対処する高速改善率PBT(FIRE PBT)を提案する。
我々は、新しいフィットネス指標を導き、それを使って、一部の人口構成員が長期的なパフォーマンスに集中できるようにします。
実験の結果、FIRE PBTはImageNetベンチマークでPBTより優れており、手動学習率のスケジュールでトレーニングされたネットワークの性能と一致していることがわかった。
論文 参考訳(メタデータ) (2021-09-28T15:30:55Z) - On the Importance of Hyperparameter Optimization for Model-based
Reinforcement Learning [27.36718899899319]
モデルベース強化学習(MBRL)はデータ効率のよい制御を学習するための有望なフレームワークである。
MBRLは通常、新しい問題やドメインに適用する前に、重要な人間の専門知識が必要です。
論文 参考訳(メタデータ) (2021-02-26T18:57:47Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Data Efficient Training for Reinforcement Learning with Adaptive
Behavior Policy Sharing [29.283554268767805]
大規模医療やレコメンデーションシステムといった実世界の応用において、深層RLモデルのトレーニングは困難である。
本稿では、行動ポリシーによって収集された経験の共有を可能にするデータ効率のトレーニングアルゴリズムである適応行動ポリシー共有(ABPS)を提案する。
論文 参考訳(メタデータ) (2020-02-12T20:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。