論文の概要: Approximating Gradients for Differentiable Quality Diversity in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.03666v1
- Date: Tue, 8 Feb 2022 05:53:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 02:10:35.329149
- Title: Approximating Gradients for Differentiable Quality Diversity in
Reinforcement Learning
- Title(参考訳): 強化学習における微分可能な品質多様性の勾配近似
- Authors: Bryon Tjanaka, Matthew C. Fontaine, Julian Togelius, Stefanos
Nikolaidis
- Abstract要約: 微分品質多様性(DQD)アルゴリズムは、目標と測度に対して正確な勾配が利用できる場合、QD最適化を大幅に加速する。
我々はDQDアルゴリズムCMA-MEGAの2つの変種を開発し、それぞれ異なる勾配近似を持ち、それらを4つのシミュレーション歩行タスクで評価する。
1つの変種は、最先端のPGA-MAP-Elitesを2つのタスクで同等の性能(QDスコア)を達成する。もう1つの変種は、全てのタスクで比較可能だが、2つのタスクでPGA-MAP-Elitesよりも効率が低い。
- 参考スコア(独自算出の注目度): 8.591356221688773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Consider a walking agent that must adapt to damage. To approach this task, we
can train a collection of policies and have the agent select a suitable policy
when damaged. Training this collection may be viewed as a quality diversity
(QD) optimization problem, where we search for solutions (policies) which
maximize an objective (walking forward) while spanning a set of measures
(measurable characteristics). Recent work shows that differentiable quality
diversity (DQD) algorithms greatly accelerate QD optimization when exact
gradients are available for the objective and measures. However, such gradients
are typically unavailable in RL settings due to non-differentiable
environments. To apply DQD in RL settings, we propose to approximate objective
and measure gradients with evolution strategies and actor-critic methods. We
develop two variants of the DQD algorithm CMA-MEGA, each with different
gradient approximations, and evaluate them on four simulated walking tasks. One
variant achieves comparable performance (QD score) with the state-of-the-art
PGA-MAP-Elites in two tasks. The other variant performs comparably in all tasks
but is less efficient than PGA-MAP-Elites in two tasks. These results provide
insight into the limitations of CMA-MEGA in domains that require rigorous
optimization of the objective and where exact gradients are unavailable.
- Abstract(参考訳): 損傷に適応しなければならない歩行エージェントを考える。
この課題に対処するために、ポリシーの集合を訓練し、損傷した場合に適切なポリシーを選択する。
このコレクションのトレーニングは品質多様性(qd)の最適化問題と見なされ、一連の指標(測定可能な特性)にまたがって目標を最大化(前進)する解(政治)を探索する。
近年の研究では、目標値と測度に正確な勾配が利用できる場合、微分品質多様性(DQD)アルゴリズムがQD最適化を大幅に加速していることが示されている。
しかし、そのような勾配は通常、微分不可能な環境のためにRL設定では利用できない。
dqdをrl設定に適用するために,進化戦略とアクタ-クリティック手法を用いて,目標を近似し,勾配を測定することを提案する。
我々はDQDアルゴリズムCMA-MEGAの2つの変種を開発し、それぞれ異なる勾配近似を持ち、それらを4つのシミュレーション歩行タスクで評価する。
1つの変種は2つのタスクで最先端のPGA-MAP-Elitesと同等のパフォーマンス(QDスコア)を達成する。
他の変種は全てのタスクで比較可能であるが、2つのタスクでPGA-MAP-Elitesよりも効率が低い。
これらの結果は、目的の厳密な最適化と正確な勾配が利用できない領域におけるCMA-MEGAの限界についての洞察を与える。
関連論文リスト
- Synergizing Quality-Diversity with Descriptor-Conditioned Reinforcement
Learning [4.787389127632926]
品質多様性最適化(Quality-Diversity Optimization)は進化的アルゴリズムの一種で、多種多様な高性能なソリューションのコレクションを生成する。
MAP-Elitesは、進化ロボティクスを含む様々な分野に適用された顕著な例である。
本研究は,(1)記述者条件付き評論家による多様度探索と勾配に基づく手法との整合性を考慮した政策グラディエント変動演算子を強化すること,(2)追加費用なしで記述者条件付き政策を学習するためにアクタ批判的訓練を活用すること,の3つの貢献を提示する。
論文 参考訳(メタデータ) (2023-12-10T19:53:15Z) - Efficient Quality-Diversity Optimization through Diverse Quality Species [3.428706362109921]
我々は,アーカイブの必要をなくしたり,事前の動作範囲を定義したりすることなく,多様な解の集団を見つけることができることを示す。
本稿では,アーカイブベースの品質多様性(QD)アルゴリズムの代替として,DQS(Diverse Quality Species)を提案する。
論文 参考訳(メタデータ) (2023-04-14T23:15:51Z) - Enhancing MAP-Elites with Multiple Parallel Evolution Strategies [8.585387103144825]
進化戦略(ES)に基づく新しい品質多様性(QD)アルゴリズムを提案する。
MEMESは複数の(最大100までの)同時ESプロセスを維持しており、それぞれが独立してQD最適化用に設計されている。
ブラックボックス最適化とQD強化学習において,MEMESは勾配に基づくQDアルゴリズムと突然変異に基づくQDアルゴリズムの両方より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-10T18:55:02Z) - MAP-Elites with Descriptor-Conditioned Gradients and Archive
Distillation into a Single Policy [1.376408511310322]
DCG-MAP-ElitesはPGA-MAP-ElitesのQDスコアを平均82%改善する。
我々のアルゴリズムであるDCG-MAP-ElitesはPGA-MAP-ElitesのQDスコアを平均82%改善する。
論文 参考訳(メタデータ) (2023-03-07T11:58:01Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and
Stability [67.8426046908398]
汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な2つの目的である。
本稿では,アクター・クリティック・ロス関数の自動設計法であるMetaPGを提案する。
論文 参考訳(メタデータ) (2022-04-08T20:46:16Z) - Conflict-Averse Gradient Descent for Multi-task Learning [56.379937772617]
マルチタスクモデルを最適化する際の大きな課題は、矛盾する勾配である。
本稿では、平均損失関数を最小化する衝突-逆勾配降下(CAGrad)を導入する。
CAGradは目標を自動的にバランスし、平均損失よりも最小限に確実に収束する。
論文 参考訳(メタデータ) (2021-10-26T22:03:51Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - Differentiable Quality Diversity [1.0965065178451106]
本稿では、目的関数と測度関数の両方が一階微分可能となる微分可能品質多様性(DQD)問題を提案する。
次に、勾配情報を利用して目的関数の結合範囲を効率的に探索するDQDアルゴリズムであるグラディエントアーボラッセンス(MEGA)を用いてMAP-Elitesを提示する。
2つのQDベンチマークドメインとStyleGANの潜在空間の探索の結果、MEGAは最先端のQDアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-06-07T18:11:53Z) - Robust Optimal Transport with Applications in Generative Modeling and
Domain Adaptation [120.69747175899421]
ワッサーシュタインのような最適輸送(OT)距離は、GANやドメイン適応のようないくつかの領域で使用されている。
本稿では,現代のディープラーニングアプリケーションに適用可能な,ロバストなOT最適化の計算効率のよい2つの形式を提案する。
提案手法では, ノイズの多いデータセット上で, 外部分布で劣化したGANモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2020-10-12T17:13:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。