論文の概要: Empirical analysis of PGA-MAP-Elites for Neuroevolution in Uncertain
Domains
- arxiv url: http://arxiv.org/abs/2210.13156v1
- Date: Mon, 24 Oct 2022 12:17:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 15:07:24.510695
- Title: Empirical analysis of PGA-MAP-Elites for Neuroevolution in Uncertain
Domains
- Title(参考訳): 未確定領域における神経進化のためのPGA-MAP-Elitesの実証解析
- Authors: Manon Flageat, Felix Chalumeau, and Antoine Cully
- Abstract要約: PGA-MAP-Elitesは決定論的および不確実な高次元環境において高い性能を示す。
PGA-MAP-Elitesによって生成される解の集合は、考慮されたベースラインを全て上回るだけでなく、不確実な環境では非常に再現性が高い。
- 参考スコア(独自算出の注目度): 1.376408511310322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quality-Diversity algorithms, among which MAP-Elites, have emerged as
powerful alternatives to performance-only optimisation approaches as they
enable generating collections of diverse and high-performing solutions to an
optimisation problem. However, they are often limited to low-dimensional search
spaces and deterministic environments. The recently introduced Policy Gradient
Assisted MAP-Elites (PGA-MAP-Elites) algorithm overcomes this limitation by
pairing the traditional Genetic operator of MAP-Elites with a gradient-based
operator inspired by Deep Reinforcement Learning. This new operator guides
mutations toward high-performing solutions using policy-gradients. In this
work, we propose an in-depth study of PGA-MAP-Elites. We demonstrate the
benefits of policy-gradients on the performance of the algorithm and the
reproducibility of the generated solutions when considering uncertain domains.
We first prove that PGA-MAP-Elites is highly performant in both deterministic
and uncertain high-dimensional environments, decorrelating the two challenges
it tackles. Secondly, we show that in addition to outperforming all the
considered baselines, the collections of solutions generated by PGA-MAP-Elites
are highly reproducible in uncertain environments, approaching the
reproducibility of solutions found by Quality-Diversity approaches built
specifically for uncertain applications. Finally, we propose an ablation and
in-depth analysis of the dynamic of the policy-gradients-based variation. We
demonstrate that the policy-gradient variation operator is determinant to
guarantee the performance of PGA-MAP-Elites but is only essential during the
early stage of the process, where it finds high-performing regions of the
search space.
- Abstract(参考訳): MAP-Elitesを含む品質多様性アルゴリズムは、最適化問題に対する多種多様な高性能なソリューションの収集を可能にするため、パフォーマンスのみの最適化アプローチの強力な代替手段として登場した。
しかし、それらはしばしば低次元の探索空間や決定論的環境に限られる。
最近導入されたPolicy Gradient Assisted MAP-Elites (PGA-MAP-Elites)アルゴリズムは、MAP-Elitesの従来の遺伝的演算子とDeep Reinforcement Learningにインスパイアされた勾配に基づく演算子をペアリングすることで、この制限を克服する。
この新しいオペレータは、ポリシー勾配を用いた高パフォーマンスソリューションへの突然変異を誘導する。
本研究では,PGA-MAP-Elitesの詳細な研究を提案する。
本稿では,不確定領域を考慮した場合のアルゴリズムの性能と生成解の再現性に対するポリシー勾配の利点を示す。
我々はまず,PGA-MAP-Elitesが決定論的かつ不確実な高次元環境において高い性能を持つことを示す。
第2に,PGA-MAP-Elites が生成するソリューションの集合は,すべてのベースラインを上回り,不確実な環境において高い再現性を示し,不確実なアプリケーションに特化して構築された品質多様性アプローチによるソリューションの再現性にアプローチする。
最後に、政策次数に基づく変動のダイナミクスのアブレーションと詳細な分析を提案する。
我々は,PGA-MAP-Elitesの性能を保証するために,政策段階の変動演算子が決定可能であることを実証する。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。
本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。
PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文 参考訳(メタデータ) (2024-02-16T19:35:58Z) - Synergizing Quality-Diversity with Descriptor-Conditioned Reinforcement
Learning [4.787389127632926]
品質多様性最適化(Quality-Diversity Optimization)は進化的アルゴリズムの一種で、多種多様な高性能なソリューションのコレクションを生成する。
MAP-Elitesは、進化ロボティクスを含む様々な分野に適用された顕著な例である。
本研究は,(1)記述者条件付き評論家による多様度探索と勾配に基づく手法との整合性を考慮した政策グラディエント変動演算子を強化すること,(2)追加費用なしで記述者条件付き政策を学習するためにアクタ批判的訓練を活用すること,の3つの貢献を提示する。
論文 参考訳(メタデータ) (2023-12-10T19:53:15Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - MAP-Elites with Descriptor-Conditioned Gradients and Archive
Distillation into a Single Policy [1.376408511310322]
DCG-MAP-ElitesはPGA-MAP-ElitesのQDスコアを平均82%改善する。
我々のアルゴリズムであるDCG-MAP-ElitesはPGA-MAP-ElitesのQDスコアを平均82%改善する。
論文 参考訳(メタデータ) (2023-03-07T11:58:01Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Approximating Gradients for Differentiable Quality Diversity in
Reinforcement Learning [8.591356221688773]
微分品質多様性(DQD)アルゴリズムは、目標と測度に対して正確な勾配が利用できる場合、QD最適化を大幅に加速する。
我々はDQDアルゴリズムCMA-MEGAの2つの変種を開発し、それぞれ異なる勾配近似を持ち、それらを4つのシミュレーション歩行タスクで評価する。
1つの変種は、最先端のPGA-MAP-Elitesを2つのタスクで同等の性能(QDスコア)を達成する。もう1つの変種は、全てのタスクで比較可能だが、2つのタスクでPGA-MAP-Elitesよりも効率が低い。
論文 参考訳(メタデータ) (2022-02-08T05:53:55Z) - Result Diversification by Multi-objective Evolutionary Algorithms with
Theoretical Guarantees [94.72461292387146]
両目的探索問題として結果の多様化問題を再構成し,多目的進化アルゴリズム(EA)を用いて解くことを提案する。
GSEMOが最適時間近似比1/2$を達成できることを理論的に証明する。
目的関数が動的に変化すると、GSEMOはこの近似比をランニングタイムで維持することができ、Borodinらによって提案されたオープンな問題に対処する。
論文 参考訳(メタデータ) (2021-10-18T14:00:22Z) - Deep Reinforcement Learning for Field Development Optimization [0.0]
本研究の目的は,畳み込みニューラルネットワーク(CNN)深部強化学習(DRL)アルゴリズムをフィールド開発最適化問題に適用することである。
近似ポリシー最適化 (PPO) アルゴリズムは2つのCNNアーキテクチャで様々な層と構成を持つ。
両ネットワークは、ハイブリッド粒子群最適化(PSO-MADS)アルゴリズムと比較して満足な結果をもたらすポリシーを得た。
論文 参考訳(メタデータ) (2020-08-05T06:26:13Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。