Fugu-MT 論文翻訳(概要): Proximal Policy Gradient Arborescence for Quality Diversity Reinforcement Learning

論文の概要: Proximal Policy Gradient Arborescence for Quality Diversity Reinforcement Learning

arxiv url: http://arxiv.org/abs/2305.13795v1
Date: Tue, 23 May 2023 08:05:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 18:06:53.130468
Title: Proximal Policy Gradient Arborescence for Quality Diversity Reinforcement Learning
Title（参考訳）: 品質多様性強化学習のための近似的ポリシーグラディエントアーボラミネッセンス
Authors: Sumeet Batra, Bryon Tjanaka, Matthew C. Fontaine, Aleksei Petrenko, Stefanos Nikolaidis, Gaurav Sukhatme
Abstract要約: 品質多様性強化学習(QD-RL)は、新しい強化学習のクラスである。提案アルゴリズムは,挑戦的ヒューマノイド領域のベースラインよりも4倍向上した。
参考スコア（独自算出の注目度）: 6.661473919912809
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training generally capable agents that perform well in unseen dynamic environments is a long-term goal of robot learning. Quality Diversity Reinforcement Learning (QD-RL) is an emerging class of reinforcement learning (RL) algorithms that blend insights from Quality Diversity (QD) and RL to produce a collection of high performing and behaviorally diverse policies with respect to a behavioral embedding. Existing QD-RL approaches have thus far taken advantage of sample-efficient off-policy RL algorithms. However, recent advances in high-throughput, massively parallelized robotic simulators have opened the door for algorithms that can take advantage of such parallelism, and it is unclear how to scale existing off-policy QD-RL methods to these new data-rich regimes. In this work, we take the first steps to combine on-policy RL methods, specifically Proximal Policy Optimization (PPO), that can leverage massive parallelism, with QD, and propose a new QD-RL method with these high-throughput simulators and on-policy training in mind. Our proposed Proximal Policy Gradient Arborescence (PPGA) algorithm yields a 4x improvement over baselines on the challenging humanoid domain.
Abstract（参考訳）: 見えない動的環境でうまく機能する一般的な能力のあるエージェントを訓練することは、ロボット学習の長期的な目標である。品質多様性強化学習 (qd-rl) は、品質多様性 (qd) と rl から洞察をブレンドし、行動埋め込みに関してハイパフォーマンスで行動に多様性のあるポリシーの集合を生成する、強化学習 (rl) アルゴリズムの新しいクラスである。既存のQD-RLアプローチは、これまでサンプル効率の良いオフポリシーRLアルゴリズムを利用してきた。しかし、近年の大規模並列化ロボットシミュレータの進歩により、このような並列性を生かしたアルゴリズムの扉が開かれており、これらの新しいデータに富む既存のQD-RL手法をどのように拡張するかは不明である。本稿では, 大規模並列処理をQDに活用できるPPO(Proximal Policy Optimization, Proximal Policy Optimization, Proximal Policy Optimization, PPO)法と高スループットシミュレータを用いた新しいQD-RL法を提案する。提案する近位政策勾配arbeorescence(ppga)アルゴリズムは,ヒューマノイド領域のベースラインよりも4倍改善する。

関連論文リスト

Trajectory First: A Curriculum for Discovering Diverse Policies [17.315583101484147]
多様な方法でタスクを解くことができるため、エージェントはタスクのバリエーションに対してより堅牢になり、局所最適性が低下する。多様なエージェントを並列に訓練する強力な強化学習フレームワークとして、制約付き多様性最適化が登場した。ステップベースの政策を学習する前に,まず軌道レベルを探索するカリキュラムを提案する。
論文参考訳（メタデータ） (2025-06-02T11:47:51Z)
A novel multi-agent dynamic portfolio optimization learning system based on hierarchical deep reinforcement learning [4.495144308458951]
DRLエージェントをアクター批判アルゴリズムと深度関数近似器を用いて訓練すると,DRLエージェントのリスク調整による収益性の改善が重要でないシナリオが生じる可能性がある。本研究では,新しい多エージェント深層強化学習(L)アルゴリズムフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-12T15:00:02Z)
Reinforcement Learning-assisted Evolutionary Algorithm: A Survey and Research Opportunities [63.258517066104446]
進化的アルゴリズムの構成要素として統合された強化学習は,近年,優れた性能を示している。本稿では,RL-EA 統合手法,RL-EA が採用する RL-EA 支援戦略,および既存文献による適用について論じる。 RL-EAセクションの適用例では、RL-EAのいくつかのベンチマークおよび様々な公開データセットにおける優れた性能を示す。
論文参考訳（メタデータ） (2023-08-25T15:06:05Z)
Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文参考訳（メタデータ） (2023-07-20T09:05:46Z)
Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文参考訳（メタデータ） (2023-02-03T00:11:02Z)
Neuroevolution is a Competitive Alternative to Reinforcement Learning for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文参考訳（メタデータ） (2022-10-06T11:06:39Z)
Meta-Reinforcement Learning in Broad and Non-Parametric Environments [8.091658684517103]
非パラメトリック環境におけるタスクに対するタスク推論に基づくメタRLアルゴリズムTIGRを導入する。我々は,タスク推論学習から政策訓練を分離し,教師なしの再構築目標に基づいて推論機構を効率的に訓練する。半チーター環境に基づく定性的に異なるタスクのベンチマークを行い、最先端のメタRL手法と比較してTIGRの優れた性能を示す。
論文参考訳（メタデータ） (2021-08-08T19:32:44Z)
Variational Empowerment as Representation Learning for Goal-Based Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文参考訳（メタデータ） (2021-06-02T18:12:26Z)
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。 SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文参考訳（メタデータ） (2020-07-09T17:08:44Z)
Diversity Policy Gradient for Sample Efficient Quality-Diversity Optimization [7.8499505363825755]
多様性とパフォーマンスを両立させることは、探索・探索のトレードオフに対処するための便利な方法である。本稿では、ポリシーグラディエントアルゴリズムと品質多様性アプローチの強みを組み合わせた新しいアルゴリズムQDPGを提案する。
論文参考訳（メタデータ） (2020-06-15T16:04:06Z)
Robust Reinforcement Learning via Adversarial training with Langevin Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-02-14T14:59:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。