論文の概要: Proximal Policy Gradient Arborescence for Quality Diversity
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.13795v2
- Date: Mon, 29 Jan 2024 20:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 19:28:03.573466
- Title: Proximal Policy Gradient Arborescence for Quality Diversity
Reinforcement Learning
- Title(参考訳): 品質多様性強化学習のための近似的ポリシーグラディエントアーボラミネッセンス
- Authors: Sumeet Batra, Bryon Tjanaka, Matthew C. Fontaine, Aleksei Petrenko,
Stefanos Nikolaidis, Gaurav Sukhatme
- Abstract要約: 環境を徹底的に探求し、新しい多様なスキルを学ぶ、一般的に有能なエージェントを訓練することは、ロボット学習の長期的な目標である。
品質多様性強化学習(QD-RL: Quality Diversity Reinforcement Learning)は、両分野の最高の側面をブレンドする新興研究分野である。
- 参考スコア(独自算出の注目度): 14.16864939687988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training generally capable agents that thoroughly explore their environment
and learn new and diverse skills is a long-term goal of robot learning. Quality
Diversity Reinforcement Learning (QD-RL) is an emerging research area that
blends the best aspects of both fields -- Quality Diversity (QD) provides a
principled form of exploration and produces collections of behaviorally diverse
agents, while Reinforcement Learning (RL) provides a powerful performance
improvement operator enabling generalization across tasks and dynamic
environments. Existing QD-RL approaches have been constrained to sample
efficient, deterministic off-policy RL algorithms and/or evolution strategies,
and struggle with highly stochastic environments. In this work, we, for the
first time, adapt on-policy RL, specifically Proximal Policy Optimization
(PPO), to the Differentiable Quality Diversity (DQD) framework and propose
additional improvements over prior work that enable efficient optimization and
discovery of novel skills on challenging locomotion tasks. Our new algorithm,
Proximal Policy Gradient Arborescence (PPGA), achieves state-of-the-art
results, including a 4x improvement in best reward over baselines on the
challenging humanoid domain.
- Abstract(参考訳): 環境を徹底的に探求し、新しい多様なスキルを学ぶ、一般的に有能なエージェントを訓練することは、ロボット学習の長期的な目標である。
品質多様性強化学習(qd-rl)は、両方の分野の最良の側面を融合させる新たな研究領域である -- 品質多様性(qd)は、原則化された形態の探索を提供し、行動的に多様なエージェントのコレクションを生成する一方で、強化学習(rl)は、タスクと動的環境間の一般化を可能にする強力なパフォーマンス改善オペレータを提供する。
既存のQD-RLアプローチは、効率的で決定論的なオフポリチックRLアルゴリズムや/または進化戦略をサンプリングし、高度に確率的な環境と闘うことが制約されている。
本研究では,特にPPO(Proximal Policy Optimization, Proximal Policy Optimization, Proximal Policy Optimization, PPO)をDQD( Differentiable Quality Diversity, 差別化可能な品質多様性)フレームワークに適用し,ロコモーション課題に対する新たなスキルの効率的な最適化と発見を可能にする先行作業の改善を提案する。
提案手法であるppga(proximal policy gradient arborescence)は,ヒューマノイド領域におけるベースラインに対する最高報酬の4倍の改善を含む,最先端の成果を達成している。
関連論文リスト
- Reinforcement Learning-assisted Evolutionary Algorithm: A Survey and
Research Opportunities [63.258517066104446]
進化的アルゴリズムの構成要素として統合された強化学習は,近年,優れた性能を示している。
本稿では,RL-EA 統合手法,RL-EA が採用する RL-EA 支援戦略,および既存文献による適用について論じる。
RL-EAセクションの適用例では、RL-EAのいくつかのベンチマークおよび様々な公開データセットにおける優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-25T15:06:05Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Neuroevolution is a Competitive Alternative to Reinforcement Learning
for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。
品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:06:39Z) - Meta-Reinforcement Learning in Broad and Non-Parametric Environments [8.091658684517103]
非パラメトリック環境におけるタスクに対するタスク推論に基づくメタRLアルゴリズムTIGRを導入する。
我々は,タスク推論学習から政策訓練を分離し,教師なしの再構築目標に基づいて推論機構を効率的に訓練する。
半チーター環境に基づく定性的に異なるタスクのベンチマークを行い、最先端のメタRL手法と比較してTIGRの優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-08T19:32:44Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Diversity Policy Gradient for Sample Efficient Quality-Diversity
Optimization [7.8499505363825755]
多様性とパフォーマンスを両立させることは、探索・探索のトレードオフに対処するための便利な方法である。
本稿では、ポリシーグラディエントアルゴリズムと品質多様性アプローチの強みを組み合わせた新しいアルゴリズムQDPGを提案する。
論文 参考訳(メタデータ) (2020-06-15T16:04:06Z) - Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-14T14:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。