論文の概要: Synergizing Quality-Diversity with Descriptor-Conditioned Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2401.08632v1
- Date: Sun, 10 Dec 2023 19:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 09:51:18.355073
- Title: Synergizing Quality-Diversity with Descriptor-Conditioned Reinforcement
Learning
- Title(参考訳): Descriptor-Conditioned Reinforcement Learning による品質多様性の相乗化
- Authors: Maxence Faldor, F\'elix Chalumeau, Manon Flageat, Antoine Cully
- Abstract要約: 品質多様性最適化(Quality-Diversity Optimization)は進化的アルゴリズムの一種で、多種多様な高性能なソリューションのコレクションを生成する。
MAP-Elitesは、進化ロボティクスを含む様々な分野に適用された顕著な例である。
本研究は,(1)記述者条件付き評論家による多様度探索と勾配に基づく手法との整合性を考慮した政策グラディエント変動演算子を強化すること,(2)追加費用なしで記述者条件付き政策を学習するためにアクタ批判的訓練を活用すること,の3つの貢献を提示する。
- 参考スコア(独自算出の注目度): 4.787389127632926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A fundamental trait of intelligence involves finding novel and creative
solutions to address a given challenge or to adapt to unforeseen situations.
Reflecting this, Quality-Diversity optimization is a family of Evolutionary
Algorithms, that generates collections of both diverse and high-performing
solutions. Among these, MAP-Elites is a prominent example, that has been
successfully applied to a variety of domains, including evolutionary robotics.
However, MAP-Elites performs a divergent search with random mutations
originating from Genetic Algorithms, and thus, is limited to evolving
populations of low-dimensional solutions. PGA-MAP-Elites overcomes this
limitation using a gradient-based variation operator inspired by deep
reinforcement learning which enables the evolution of large neural networks.
Although high-performing in many environments, PGA-MAP-Elites fails on several
tasks where the convergent search of the gradient-based variation operator
hinders diversity. In this work, we present three contributions: (1) we enhance
the Policy Gradient variation operator with a descriptor-conditioned critic
that reconciles diversity search with gradient-based methods, (2) we leverage
the actor-critic training to learn a descriptor-conditioned policy at no
additional cost, distilling the knowledge of the population into one single
versatile policy that can execute a diversity of behaviors, (3) we exploit the
descriptor-conditioned actor by injecting it in the population, despite network
architecture differences. Our method, DCG-MAP-Elites, achieves equal or higher
QD score and coverage compared to all baselines on seven challenging continuous
control locomotion tasks.
- Abstract(参考訳): インテリジェンスの基本的特徴は、与えられた課題に対処したり、予期せぬ状況に適応するために、斬新で創造的な解決策を見つけることである。
このことを反映して、Quality-Diversityの最適化は進化的アルゴリズムのファミリーであり、多種多様な高性能なソリューションのコレクションを生成する。
これらの中、map-elitesは進化ロボティクスを含む様々な分野にうまく適用された顕著な例である。
しかし、MAP-Elitesは遺伝的アルゴリズムから派生したランダムな突然変異を持つ分岐探索を行い、低次元解の進化する集団に限られる。
pga-map-elitesはこの制限を、大規模ニューラルネットワークの進化を可能にする深層強化学習にインスパイアされた勾配ベースの変分演算子を用いて克服する。
多くの環境で高い性能を示すが、PGA-MAP-Elitesは勾配に基づく変動作用素の収束探索が多様性を妨げるいくつかのタスクで失敗する。
In this work, we present three contributions: (1) we enhance the Policy Gradient variation operator with a descriptor-conditioned critic that reconciles diversity search with gradient-based methods, (2) we leverage the actor-critic training to learn a descriptor-conditioned policy at no additional cost, distilling the knowledge of the population into one single versatile policy that can execute a diversity of behaviors, (3) we exploit the descriptor-conditioned actor by injecting it in the population, despite network architecture differences.
提案手法であるDCG-MAP-Elitesは、7つの困難な連続制御ロコモーションタスクのベースラインと同等以上のQDスコアとカバレッジを達成する。
関連論文リスト
- Variance-Reduced Gradient Estimation via Noise-Reuse in Online Evolution
Strategies [50.10277748405355]
Noise-Reuse Evolution Strategies (NRES) は、非バイアスのオンライン進化戦略の一般的なクラスである。
NRESの結果は既存のAD法やES法よりも早く,様々なアプリケーションにまたがるウォールクロック時間とステップ数で収束することを示す。
論文 参考訳(メタデータ) (2023-04-21T17:53:05Z) - MAP-Elites with Descriptor-Conditioned Gradients and Archive
Distillation into a Single Policy [1.376408511310322]
DCG-MAP-ElitesはPGA-MAP-ElitesのQDスコアを平均82%改善する。
我々のアルゴリズムであるDCG-MAP-ElitesはPGA-MAP-ElitesのQDスコアを平均82%改善する。
論文 参考訳(メタデータ) (2023-03-07T11:58:01Z) - Diversity Through Exclusion (DTE): Niche Identification for
Reinforcement Learning through Value-Decomposition [63.67574523750839]
本稿では,多変量ニッチ環境におけるベースライン深度Q-ラーニングアルゴリズムよりも優れた汎用強化学習(RL)アルゴリズムを提案する。
この方法で訓練されたエージェントは、貧弱だが魅力ある局所最適化から逃れて、より高い価値戦略の発見を困難にすることを示します。
論文 参考訳(メタデータ) (2023-02-02T16:00:19Z) - Empirical analysis of PGA-MAP-Elites for Neuroevolution in Uncertain
Domains [1.376408511310322]
PGA-MAP-Elitesは決定論的および不確実な高次元環境において高い性能を示す。
PGA-MAP-Elitesによって生成される解の集合は、考慮されたベースラインを全て上回るだけでなく、不確実な環境では非常に再現性が高い。
論文 参考訳(メタデータ) (2022-10-24T12:17:18Z) - Neuroevolution is a Competitive Alternative to Reinforcement Learning
for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。
品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:06:39Z) - Approximating Gradients for Differentiable Quality Diversity in
Reinforcement Learning [8.591356221688773]
微分品質多様性(DQD)アルゴリズムは、目標と測度に対して正確な勾配が利用できる場合、QD最適化を大幅に加速する。
我々はDQDアルゴリズムCMA-MEGAの2つの変種を開発し、それぞれ異なる勾配近似を持ち、それらを4つのシミュレーション歩行タスクで評価する。
1つの変種は、最先端のPGA-MAP-Elitesを2つのタスクで同等の性能(QDスコア)を達成する。もう1つの変種は、全てのタスクで比較可能だが、2つのタスクでPGA-MAP-Elitesよりも効率が低い。
論文 参考訳(メタデータ) (2022-02-08T05:53:55Z) - Result Diversification by Multi-objective Evolutionary Algorithms with
Theoretical Guarantees [94.72461292387146]
両目的探索問題として結果の多様化問題を再構成し,多目的進化アルゴリズム(EA)を用いて解くことを提案する。
GSEMOが最適時間近似比1/2$を達成できることを理論的に証明する。
目的関数が動的に変化すると、GSEMOはこの近似比をランニングタイムで維持することができ、Borodinらによって提案されたオープンな問題に対処する。
論文 参考訳(メタデータ) (2021-10-18T14:00:22Z) - Gradient Regularized Contrastive Learning for Continual Domain
Adaptation [86.02012896014095]
本稿では,ラベル付きソースドメインと非ラベル付きターゲットドメインのシーケンスでモデルを提示する連続的なドメイン適応の問題について検討する。
障害を解決するため,グラディエント正規化コントラスト学習(GRCL)を提案する。
Digits、DomainNet、Office-Caltechベンチマークの実験は、我々のアプローチの強力なパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-03-23T04:10:42Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Diversity Policy Gradient for Sample Efficient Quality-Diversity
Optimization [7.8499505363825755]
多様性とパフォーマンスを両立させることは、探索・探索のトレードオフに対処するための便利な方法である。
本稿では、ポリシーグラディエントアルゴリズムと品質多様性アプローチの強みを組み合わせた新しいアルゴリズムQDPGを提案する。
論文 参考訳(メタデータ) (2020-06-15T16:04:06Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。