論文の概要: MAP-Elites with Descriptor-Conditioned Gradients and Archive
Distillation into a Single Policy
- arxiv url: http://arxiv.org/abs/2303.03832v1
- Date: Tue, 7 Mar 2023 11:58:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 15:31:06.277787
- Title: MAP-Elites with Descriptor-Conditioned Gradients and Archive
Distillation into a Single Policy
- Title(参考訳): ディスクリプタ条件勾配を持つmap-elitesと1つのポリシーへのアーカイブ蒸留
- Authors: Maxence Faldor and F\'elix Chalumeau and Manon Flageat and Antoine
Cully
- Abstract要約: DCG-MAP-ElitesはPGA-MAP-ElitesのQDスコアを平均82%改善する。
我々のアルゴリズムであるDCG-MAP-ElitesはPGA-MAP-ElitesのQDスコアを平均82%改善する。
- 参考スコア(独自算出の注目度): 1.376408511310322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quality-Diversity algorithms, such as MAP-Elites, are a branch of
Evolutionary Computation generating collections of diverse and high-performing
solutions, that have been successfully applied to a variety of domains and
particularly in evolutionary robotics. However, MAP-Elites performs a divergent
search based on random mutations originating from Genetic Algorithms, and thus,
is limited to evolving populations of low-dimensional solutions. PGA-MAP-Elites
overcomes this limitation by integrating a gradient-based variation operator
inspired by Deep Reinforcement Learning which enables the evolution of large
neural networks. Although high-performing in many environments, PGA-MAP-Elites
fails on several tasks where the convergent search of the gradient-based
operator does not direct mutations towards archive-improving solutions. In this
work, we present two contributions: (1) we enhance the Policy Gradient
variation operator with a descriptor-conditioned critic that improves the
archive across the entire descriptor space, (2) we exploit the actor-critic
training to learn a descriptor-conditioned policy at no additional cost,
distilling the knowledge of the archive into one single versatile policy that
can execute the entire range of behaviors contained in the archive. Our
algorithm, DCG-MAP-Elites improves the QD score over PGA-MAP-Elites by 82% on
average, on a set of challenging locomotion tasks.
- Abstract(参考訳): map-elitesのような品質多様性アルゴリズムは、様々な分野、特に進化ロボティクスにおいてうまく適用された、多様で高パフォーマンスなソリューションの集合を生成する進化的計算の分野である。
しかし、MAP-Elitesは遺伝的アルゴリズムから派生したランダム変異に基づく分岐探索を行うため、低次元解の進化する集団に限られる。
PGA-MAP-Elitesはこの制限を克服し、Deep Reinforcement Learningにインスパイアされた勾配ベースの変動演算子を統合することで、大規模なニューラルネットワークの進化を可能にする。
多くの環境で高い性能を示すが、PGA-MAP-Elitesは、勾配に基づく作用素の収束探索がアーカイブ改善ソリューションへの突然変異を直接起こさないいくつかのタスクで失敗する。
本稿では,(1)記述子空間全体にわたってアーカイブを改善する記述子条件付き批評家によるポリシー勾配変動演算子の強化,(2)追加コストなしで記述子条件付きポリシーの学習にアクタ・クリティックなトレーニングを活用し,アーカイブの知識を単一の汎用的なポリシに蒸留し,アーカイブに含まれる行動の全範囲を実行可能にすること,という2つの貢献について述べる。
我々のアルゴリズムであるDCG-MAP-ElitesはPGA-MAP-ElitesのQDスコアを平均82%改善する。
関連論文リスト
- Synergizing Quality-Diversity with Descriptor-Conditioned Reinforcement
Learning [4.787389127632926]
品質多様性最適化(Quality-Diversity Optimization)は進化的アルゴリズムの一種で、多種多様な高性能なソリューションのコレクションを生成する。
MAP-Elitesは、進化ロボティクスを含む様々な分野に適用された顕著な例である。
本研究は,(1)記述者条件付き評論家による多様度探索と勾配に基づく手法との整合性を考慮した政策グラディエント変動演算子を強化すること,(2)追加費用なしで記述者条件付き政策を学習するためにアクタ批判的訓練を活用すること,の3つの貢献を提示する。
論文 参考訳(メタデータ) (2023-12-10T19:53:15Z) - Don't Bet on Luck Alone: Enhancing Behavioral Reproducibility of
Quality-Diversity Solutions in Uncertain Domains [2.639902239625779]
アーカイブ再現性向上アルゴリズム(ARIA)を紹介する。
ARIAは、アーカイブに存在するソリューションの品質を改善するプラグイン・アンド・プレイのアプローチである。
提案アルゴリズムは,任意のアーカイブの品質とディスクリプタ空間のカバレッジを少なくとも50%向上させることを示す。
論文 参考訳(メタデータ) (2023-04-07T14:45:14Z) - Empirical analysis of PGA-MAP-Elites for Neuroevolution in Uncertain
Domains [1.376408511310322]
PGA-MAP-Elitesは決定論的および不確実な高次元環境において高い性能を示す。
PGA-MAP-Elitesによって生成される解の集合は、考慮されたベースラインを全て上回るだけでなく、不確実な環境では非常に再現性が高い。
論文 参考訳(メタデータ) (2022-10-24T12:17:18Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Approximating Gradients for Differentiable Quality Diversity in
Reinforcement Learning [8.591356221688773]
微分品質多様性(DQD)アルゴリズムは、目標と測度に対して正確な勾配が利用できる場合、QD最適化を大幅に加速する。
我々はDQDアルゴリズムCMA-MEGAの2つの変種を開発し、それぞれ異なる勾配近似を持ち、それらを4つのシミュレーション歩行タスクで評価する。
1つの変種は、最先端のPGA-MAP-Elitesを2つのタスクで同等の性能(QDスコア)を達成する。もう1つの変種は、全てのタスクで比較可能だが、2つのタスクでPGA-MAP-Elitesよりも効率が低い。
論文 参考訳(メタデータ) (2022-02-08T05:53:55Z) - Result Diversification by Multi-objective Evolutionary Algorithms with
Theoretical Guarantees [94.72461292387146]
両目的探索問題として結果の多様化問題を再構成し,多目的進化アルゴリズム(EA)を用いて解くことを提案する。
GSEMOが最適時間近似比1/2$を達成できることを理論的に証明する。
目的関数が動的に変化すると、GSEMOはこの近似比をランニングタイムで維持することができ、Borodinらによって提案されたオープンな問題に対処する。
論文 参考訳(メタデータ) (2021-10-18T14:00:22Z) - AP-Loss for Accurate One-Stage Object Detection [49.13608882885456]
一段階の物体検出器は、分類損失と局所化損失を同時に最適化することによって訓練される。
前者は、多数のアンカーのため、非常に前景と後方のアンカーの不均衡に悩まされる。
本稿では,一段検知器の分類タスクをランキングタスクに置き換える新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-08-17T13:22:01Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Diversity Policy Gradient for Sample Efficient Quality-Diversity
Optimization [7.8499505363825755]
多様性とパフォーマンスを両立させることは、探索・探索のトレードオフに対処するための便利な方法である。
本稿では、ポリシーグラディエントアルゴリズムと品質多様性アプローチの強みを組み合わせた新しいアルゴリズムQDPGを提案する。
論文 参考訳(メタデータ) (2020-06-15T16:04:06Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。