論文の概要: Understanding the Synergies between Quality-Diversity and Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.06164v1
- Date: Fri, 10 Mar 2023 19:02:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 20:42:08.670887
- Title: Understanding the Synergies between Quality-Diversity and Deep
Reinforcement Learning
- Title(参考訳): 品質多様性と深層強化学習の相乗効果を理解する
- Authors: Bryan Lim, Manon Flageat, Antoine Cully
- Abstract要約: Generalized Actor-Critic QD-RLは、QD-RL設定におけるアクタークリティカルなディープRLメソッドのための統一的なモジュラーフレームワークである。
PGA-ME (SAC) と PGA-ME (DroQ) という2つの新しいアルゴリズムを導入し,近年のディープRLの進歩をQD-RL設定に適用した。
- 参考スコア(独自算出の注目度): 4.788163807490196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The synergies between Quality-Diversity (QD) and Deep Reinforcement Learning
(RL) have led to powerful hybrid QD-RL algorithms that have shown tremendous
potential, and brings the best of both fields. However, only a single deep RL
algorithm (TD3) has been used in prior hybrid methods despite notable progress
made by other RL algorithms. Additionally, there are fundamental differences in
the optimization procedures between QD and RL which would benefit from a more
principled approach. We propose Generalized Actor-Critic QD-RL, a unified
modular framework for actor-critic deep RL methods in the QD-RL setting. This
framework provides a path to study insights from Deep RL in the QD-RL setting,
which is an important and efficient way to make progress in QD-RL. We introduce
two new algorithms, PGA-ME (SAC) and PGA-ME (DroQ) which apply recent
advancements in Deep RL to the QD-RL setting, and solves the humanoid
environment which was not possible using existing QD-RL algorithms. However, we
also find that not all insights from Deep RL can be effectively translated to
QD-RL. Critically, this work also demonstrates that the actor-critic models in
QD-RL are generally insufficiently trained and performance gains can be
achieved without any additional environment evaluations.
- Abstract(参考訳): QD(Quality-Diversity)と深層強化学習(Deep Reinforcement Learning, RL)の相乗効果により、強力なハイブリッドQD-RLアルゴリズムが実現され、両者の利点が示された。
しかし、他のRLアルゴリズムによる顕著な進歩にもかかわらず、従来のハイブリッド手法では1つのディープRLアルゴリズム(TD3)しか使われていない。
さらに、qdとrlの最適化手順には、より原則化されたアプローチの恩恵を受ける基本的な違いがある。
本稿では,QD-RL設定におけるアクター批判深度RL法のための統一的なモジュラーフレームワークである一般化アクター批判QD-RLを提案する。
このフレームワークは、QD-RLの設定においてDeep RLからの洞察を研究するためのパスを提供する。
PGA-ME (SAC) と PGA-ME (DroQ) という2つの新しいアルゴリズムを導入し, ディープRLの最近の進歩をQD-RL設定に適用し, 既存のQD-RLアルゴリズムでは不可能であったヒューマノイド環境を解決する。
しかし、Deep RLのすべての洞察をQD-RLに効果的に翻訳できるわけではない。
批判的に、この研究はQD-RLのアクター批判モデルが一般に不十分な訓練を受けており、追加の環境評価なしに性能向上が達成できることを示した。
関連論文リスト
- Generative AI for Deep Reinforcement Learning: Framework, Analysis, and Use Cases [60.30995339585003]
深部強化学習(DRL)は様々な分野に広く適用されており、優れた成果を上げている。
DRLは、サンプル効率の低下や一般化の低さなど、いくつかの制限に直面している。
本稿では、これらの問題に対処し、DRLアルゴリズムの性能を向上させるために、生成AI(GAI)を活用する方法について述べる。
論文 参考訳(メタデータ) (2024-05-31T01:25:40Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Leveraging Knowledge Distillation for Efficient Deep Reinforcement
Learning in Resource-Constrained Environments [0.0]
本稿では, 深層強化学習(DRL)と知識蒸留(KD)の併用の可能性を探る。
主な目的は、KD技術を用いて改良された異なるDRLアルゴリズムの性能を評価するためのベンチマークを提供することである。
DRLとKDの組み合わせを探求することで、この研究はGPUリソースの少ないモデルの開発を促進し、より早く学習し、複雑な環境でより高速な意思決定を行うことを目的としている。
論文 参考訳(メタデータ) (2023-10-16T08:26:45Z) - RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを通してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$と比較して、短期的にはデータ効率を保ちながら、長期的には累積的な報酬を多く得ており、アウト・オブ・ディストリビューション・タスクよりも一般化されていることを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Deep Black-Box Reinforcement Learning with Movement Primitives [15.184283143878488]
深部強化学習のための新しいアルゴリズムを提案する。
これは、政治的に成功したディープRLアルゴリズムである、微分可能な信頼領域層に基づいている。
複雑なロボット制御タスクにおいて,ERLアルゴリズムと最先端のステップベースアルゴリズムを比較した。
論文 参考訳(メタデータ) (2022-10-18T06:34:52Z) - DRL-based Slice Placement Under Non-Stationary Conditions [0.8459686722437155]
我々は,非定常プロセスに従ってスライス要求が到着するという仮定の下で,最適ネットワークスライス配置のためのオンライン学習を検討する。
具体的には、2つの純DRLアルゴリズムと2つのハイブリッドDRLヒューリスティックアルゴリズムを提案する。
提案したハイブリッドDRLヒューリスティックアルゴリズムは、収束を達成するために、純DRLよりも少ない3桁の学習エピソードを必要とすることを示す。
論文 参考訳(メタデータ) (2021-08-05T10:05:12Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Maximum Entropy RL (Provably) Solves Some Robust RL Problems [94.80212602202518]
我々は、標準最大エントロピーRLが動的および報酬関数のいくつかの障害に対して堅牢であることを理論的に証明する。
以上の結果から,MaxEnt RL自体が特定の障害に対して頑健であり,追加の修正は不要であることが示唆された。
論文 参考訳(メタデータ) (2021-03-10T18:45:48Z) - Active Finite Reward Automaton Inference and Reinforcement Learning
Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。
本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。
具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-28T21:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。