論文の概要: Genetic Drift Regularization: on preventing Actor Injection from breaking Evolution Strategies
- arxiv url: http://arxiv.org/abs/2405.04322v1
- Date: Tue, 7 May 2024 13:48:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 14:00:34.867247
- Title: Genetic Drift Regularization: on preventing Actor Injection from breaking Evolution Strategies
- Title(参考訳): 遺伝的ドリフト規則化 : アクター注入による進化戦略の破滅防止について
- Authors: Paul Templier, Emmanuel Rachelson, Antoine Cully, Dennis G. Wilson,
- Abstract要約: 遺伝的ドリフト規則化(英: Genetic Drift Regularization、GDR)は、アクターゲノムがESから離脱するのを阻止する、アクター訓練損失の単純な正規化法である。
GDRは、RLがよく学習する問題に対するES収束を改善するだけでなく、他のタスクにおけるRLトレーニングにも役立つことを示す。
- 参考スコア(独自算出の注目度): 9.813386592472535
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Evolutionary Algorithms (EA) have been successfully used for the optimization of neural networks for policy search, but they still remain sample inefficient and underperforming in some cases compared to gradient-based reinforcement learning (RL). Various methods combine the two approaches, many of them training a RL algorithm on data from EA evaluations and injecting the RL actor into the EA population. However, when using Evolution Strategies (ES) as the EA, the RL actor can drift genetically far from the the ES distribution and injection can cause a collapse of the ES performance. Here, we highlight the phenomenon of genetic drift where the actor genome and the ES population distribution progressively drift apart, leading to injection having a negative impact on the ES. We introduce Genetic Drift Regularization (GDR), a simple regularization method in the actor training loss that prevents the actor genome from drifting away from the ES. We show that GDR can improve ES convergence on problems where RL learns well, but also helps RL training on other tasks, , fixes the injection issues better than previous controlled injection methods.
- Abstract(参考訳): 進化的アルゴリズム(EA)は、ポリシー探索のためのニューラルネットワークの最適化に成功しているが、勾配に基づく強化学習(RL)と比較して、サンプルの非効率さと性能の低下がまだ残っている。
それらの多くは、EA評価のデータに基づいてRLアルゴリズムを訓練し、EA人口にRLアクターを注入する。
しかし、進化戦略(Evolution Strategies, ES)をEAとして使用すると、RLアクターはES分布から遺伝的に遠ざかることができ、射出はES性能の崩壊を引き起こす。
ここでは、アクターゲノムとES集団分布が徐々にバラバラになり、ESに悪影響を及ぼす遺伝子ドリフト現象を強調した。
本稿では,アクターゲノムがESから離脱するのを防ぐための,アクター訓練損失の単純な正規化手法である遺伝的ドリフト規則化(GDR)を紹介する。
GDRは、RLがよく学習する問題に対するES収束を改善するだけでなく、他のタスクにおけるRLトレーニングにも役立ち、従来の制御されたインジェクションメソッドよりも優れたインジェクション問題を修正できることを示す。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Reinforcement Learning-assisted Evolutionary Algorithm: A Survey and
Research Opportunities [63.258517066104446]
進化的アルゴリズムの構成要素として統合された強化学習は,近年,優れた性能を示している。
本稿では,RL-EA 統合手法,RL-EA が採用する RL-EA 支援戦略,および既存文献による適用について論じる。
RL-EAセクションの適用例では、RL-EAのいくつかのベンチマークおよび様々な公開データセットにおける優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-25T15:06:05Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - Variance-Reduced Gradient Estimation via Noise-Reuse in Online Evolution
Strategies [50.10277748405355]
Noise-Reuse Evolution Strategies (NRES) は、非バイアスのオンライン進化戦略の一般的なクラスである。
NRESの結果は既存のAD法やES法よりも早く,様々なアプリケーションにまたがるウォールクロック時間とステップ数で収束することを示す。
論文 参考訳(メタデータ) (2023-04-21T17:53:05Z) - Enabling surrogate-assisted evolutionary reinforcement learning via
policy embedding [28.272572839321104]
本稿では,PE-SAERLフレームワークを提案する。
5つのアタリゲームにおける実験結果から,提案手法は4つの最先端アルゴリズムよりも効率的に動作可能であることが示された。
論文 参考訳(メタデータ) (2023-01-31T02:36:06Z) - Direct Mutation and Crossover in Genetic Algorithms Applied to
Reinforcement Learning Tasks [0.9137554315375919]
本稿では、遺伝的アルゴリズム(GA)を用いて神経進化を適用し、最適な行動エージェントを生成するニューラルネットワークの重みを見つけることに焦点を当てる。
本稿では,データ効率と収束速度を初期実装と比較して改善する2つの新しい修正法を提案する。
論文 参考訳(メタデータ) (2022-01-13T07:19:28Z) - Deceive D: Adaptive Pseudo Augmentation for GAN Training with Limited
Data [125.7135706352493]
GAN(Generative Adversarial Network)は、高忠実度画像を合成するために、訓練に十分なデータを必要とする。
近年の研究では、差別者の過度な適合により、限られたデータでGANを訓練することは困難であることが示されている。
本稿では,APA (Adaptive Pseudo Augmentation) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T18:13:45Z) - IE-GAN: An Improved Evolutionary Generative Adversarial Network Using a
New Fitness Function and a Generic Crossover Operator [20.100388977505002]
我々は、新しいフィットネス機能と汎用クロスオーバー演算子を導入するIE-GANと呼ばれる改良されたE-GANフレームワークを提案する。
特に、提案されたフィットネス機能は、個人の進化過程をより正確にモデル化することができる。
進化アルゴリズムで一般的に採用されているクロスオーバー演算子は、子孫が両親の優れた遺伝子発現を模倣することができる。
論文 参考訳(メタデータ) (2021-07-25T13:55:07Z) - Adam revisited: a weighted past gradients perspective [57.54752290924522]
本稿では,非収束問題に取り組むための適応法重み付け適応アルゴリズム(wada)を提案する。
私たちは、WADAが重み付きデータ依存の後悔境界を達成できることを証明します。
論文 参考訳(メタデータ) (2021-01-01T14:01:52Z) - Accelerating Reinforcement Learning with a
Directional-Gaussian-Smoothing Evolution Strategy [3.404507240556492]
進化戦略 (ES) は多くの困難強化学習 (RL) タスクにおいて大きな期待が持たれている。
現在のESプラクティスには2つの制限があり、そうでなければそのさらなる能力を妨げる可能性がある。
本研究では、DGS-ES(Directional Gaussian Smoothing Evolutionary Strategy)を用いてRL訓練を加速する。
DGS-ESは高いスケーラビリティを持ち、ウォールクロック時間に優れており、他の一般的な政策勾配やESアプローチと競合する報酬スコアが得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T01:05:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。