Fugu-MT 論文翻訳(概要): Diversity Policy Gradient for Sample Efficient Quality-Diversity Optimization

論文の概要: Diversity Policy Gradient for Sample Efficient Quality-Diversity Optimization

arxiv url: http://arxiv.org/abs/2006.08505v5
Date: Tue, 31 May 2022 08:57:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-21 02:38:15.870629
Title: Diversity Policy Gradient for Sample Efficient Quality-Diversity Optimization
Title（参考訳）: サンプル高効率品質・多様性最適化のための多様性政策勾配
Authors: Thomas Pierrot, Valentin Mac\'e, F\'elix Chalumeau, Arthur Flajolet, Geoffrey Cideron, Karim Beguir, Antoine Cully, Olivier Sigaud and Nicolas Perrin-Gilbert
Abstract要約: 多様性とパフォーマンスを両立させることは、探索・探索のトレードオフに対処するための便利な方法である。本稿では、ポリシーグラディエントアルゴリズムと品質多様性アプローチの強みを組み合わせた新しいアルゴリズムQDPGを提案する。
参考スコア（独自算出の注目度）: 7.8499505363825755
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A fascinating aspect of nature lies in its ability to produce a large and diverse collection of organisms that are all high-performing in their niche. By contrast, most AI algorithms focus on finding a single efficient solution to a given problem. Aiming for diversity in addition to performance is a convenient way to deal with the exploration-exploitation trade-off that plays a central role in learning. It also allows for increased robustness when the returned collection contains several working solutions to the considered problem, making it well-suited for real applications such as robotics. Quality-Diversity (QD) methods are evolutionary algorithms designed for this purpose. This paper proposes a novel algorithm, QDPG, which combines the strength of Policy Gradient algorithms and Quality Diversity approaches to produce a collection of diverse and high-performing neural policies in continuous control environments. The main contribution of this work is the introduction of a Diversity Policy Gradient (DPG) that exploits information at the time-step level to drive policies towards more diversity in a sample-efficient manner. Specifically, QDPG selects neural controllers from a MAP-Elites grid and uses two gradient-based mutation operators to improve both quality and diversity. Our results demonstrate that QDPG is significantly more sample-efficient than its evolutionary competitors.
Abstract（参考訳）: 自然界の興味深い側面は、そのニッチでハイパフォーマンスな、大きく多様な生物のコレクションを生み出す能力にある。対照的に、ほとんどのAIアルゴリズムは、与えられた問題に対する単一の効率的なソリューションを見つけることに重点を置いている。パフォーマンスに加えて多様性を目指すことは、学習において中心的な役割を果たす探索と探索のトレードオフに対処するための便利な方法である。また、返却されたコレクションが考慮された問題に対するいくつかの作業ソリューションを含んでいる場合の堅牢性も向上し、ロボティクスのような実際のアプリケーションに適している。品質多様性(QD)法はこの目的のために設計された進化的アルゴリズムである。本稿では,ポリシーグラディエントアルゴリズムと品質多様性アプローチの強みを組み合わせた新しいアルゴリズムQDPGを提案し,連続制御環境における多種多様かつ高性能なニューラルポリシーの収集を行う。この研究の主な貢献は、サンプル効率のよい方法でより多様性に向かう政策を推進するために、時間段階の情報を活用した多様性政策勾配(dpg)の導入である。具体的には、QDPGはMAP-Elitesグリッドからニューラルコントローラを選択し、2つの勾配に基づく突然変異演算子を使用して品質と多様性の両方を改善する。以上の結果から,QDPGは進化的競争相手よりも試料効率が高いことが示された。

関連論文リスト

Evolutionary Policy Optimization [47.30139909878251]
オンライン強化学習(RL)アルゴリズムは、高いパフォーマンスとトレーニング安定性のために広く利用されているが、より大きなバッチサイズでスケールするのに苦労している。本稿では、EAのスケーラビリティと多様性と、政策勾配の性能と安定性を組み合わせたハイブリッドである進化的政策最適化(EPO)を提案する。
論文参考訳（メタデータ） (2025-03-24T18:08:54Z)
Diversity-Rewarded CFG Distillation [62.08448835625036]
そこで本研究では,CFGの限界に対処しつつ,CFGの強度を蒸留する新しい微調整法であるCFG蒸留を導入する。提案手法は,(1)蒸留目標,(CFGを使わずに)モデルのみにCFG拡張予測を模倣するよう促すこと,(2)多様性報酬を付与したRL目標,および与えられたプロンプトに対する多様な出力の生成を促進すること,の2つの訓練目標を最適化する。
論文参考訳（メタデータ） (2024-10-08T14:40:51Z)
Quality Diversity through Human Feedback: Towards Open-Ended Diversity-Driven Optimization [13.436983663467938]
本稿では,ヒトフィードバックによる品質の多様性(QDHF)について紹介する。実証的な研究によると、QDHFは自動多様性発見において最先端の手法を著しく上回っている。オープンな生成タスクにおいて、QDHFは拡散モデルからテキストから画像への生成の多様性を大幅に向上させる。
論文参考訳（メタデータ） (2023-10-18T16:46:16Z)
Proximal Policy Gradient Arborescence for Quality Diversity Reinforcement Learning [14.16864939687988]
環境を徹底的に探求し、新しい多様なスキルを学ぶ、一般的に有能なエージェントを訓練することは、ロボット学習の長期的な目標である。品質多様性強化学習(QD-RL: Quality Diversity Reinforcement Learning)は、両分野の最高の側面をブレンドする新興研究分野である。
論文参考訳（メタデータ） (2023-05-23T08:05:59Z)
Efficient Exploration using Model-Based Quality-Diversity with Gradients [4.788163807490196]
本稿では,モデルに基づく品質多様性アプローチを提案する。既存のQD手法を拡張して、効率的な利用のために勾配を使い、効率的な探索のために想像において摂動を利用する。提案手法は, 対外報酬を伴うタスクにおいて, 集団ベースアプローチの多様な探索能力を維持しつつ, サンプル効率と解の質を大幅に向上させることを実証する。
論文参考訳（メタデータ） (2022-11-22T22:19:01Z)
Multi-Objective GFlowNets [59.16787189214784]
本稿では,多目的最適化の文脈において,多様な候補を生成する問題について検討する。薬物発見やマテリアルデザインといった機械学習の多くの応用において、目標は、競合する可能性のある目標のセットを同時に最適化する候補を生成することである。 GFlowNetsをベースとした多目的GFlowNets(MOGFNs)を提案する。
論文参考訳（メタデータ） (2022-10-23T16:15:36Z)
Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文参考訳（メタデータ） (2022-04-07T14:07:51Z)
Approximating Gradients for Differentiable Quality Diversity in Reinforcement Learning [8.591356221688773]
微分品質多様性(DQD)アルゴリズムは、目標と測度に対して正確な勾配が利用できる場合、QD最適化を大幅に加速する。我々はDQDアルゴリズムCMA-MEGAの2つの変種を開発し、それぞれ異なる勾配近似を持ち、それらを4つのシミュレーション歩行タスクで評価する。 1つの変種は、最先端のPGA-MAP-Elitesを2つのタスクで同等の性能(QDスコア)を達成する。もう1つの変種は、全てのタスクで比較可能だが、2つのタスクでPGA-MAP-Elitesよりも効率が低い。
論文参考訳（メタデータ） (2022-02-08T05:53:55Z)
Result Diversification by Multi-objective Evolutionary Algorithms with Theoretical Guarantees [94.72461292387146]
両目的探索問題として結果の多様化問題を再構成し,多目的進化アルゴリズム(EA)を用いて解くことを提案する。 GSEMOが最適時間近似比1/2$を達成できることを理論的に証明する。目的関数が動的に変化すると、GSEMOはこの近似比をランニングタイムで維持することができ、Borodinらによって提案されたオープンな問題に対処する。
論文参考訳（メタデータ） (2021-10-18T14:00:22Z)
Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文参考訳（メタデータ） (2021-09-14T17:12:20Z)
Generative Actor-Critic: An Off-policy Algorithm Using the Push-forward Model [24.030426634281643]
連続制御タスクでは、ガウス分布を用いた広く使われているポリシーは、環境の非効率な探索をもたらす。本稿では,ポリシの表現性を高めるためにプッシュフォワードモデルを用いて,密度のないオフポリチックアルゴリズムGenerative Actor-Criticを提案する。プッシュフォワードポリシには,マルチモーダリティなどの望ましい特徴があり,アルゴリズムの探索と性能を向上できることを示す。
論文参考訳（メタデータ） (2021-05-08T16:29:20Z)
Selection-Expansion: A Unifying Framework for Motion-Planning and Diversity Search Algorithms [69.87173070473717]
本稿では,2つの多様性探索アルゴリズム,ノベルティ探索アルゴリズムとゴール探索処理アルゴリズムの特性について検討する。 mpアルゴリズムとの関係は、ポリシーパラメータ空間と結果空間の間のマッピングの滑らかさ、あるいは滑らかさの欠如が検索効率において重要な役割を担っていることを示している。
論文参考訳（メタデータ） (2021-04-10T13:52:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。