論文の概要: Quality-Diversity Actor-Critic: Learning High-Performing and Diverse Behaviors via Value and Successor Features Critics
- arxiv url: http://arxiv.org/abs/2403.09930v2
- Date: Thu, 30 May 2024 18:35:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 19:42:50.724180
- Title: Quality-Diversity Actor-Critic: Learning High-Performing and Diverse Behaviors via Value and Successor Features Critics
- Title(参考訳): 品質多様性アクター批判:価値・継承的特徴批判によるハイパフォーマンス・ディヴァージョンの学習
- Authors: Luca Grillotti, Maxence Faldor, Borja G. León, Antoine Cully,
- Abstract要約: QDAC(Quality-Diversity Actor-Critic)は、アクターに批判的な深層強化学習アルゴリズムである。
他の品質多様性手法と比較すると、QDACは性能が著しく高く、振る舞いも多様である。
また、学習したスキルを活用して、他のベースラインよりも5つの摂動環境に適応できることも示しています。
- 参考スコア(独自算出の注目度): 7.600968522331612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key aspect of intelligence is the ability to demonstrate a broad spectrum of behaviors for adapting to unexpected situations. Over the past decade, advancements in deep reinforcement learning have led to groundbreaking achievements to solve complex continuous control tasks. However, most approaches return only one solution specialized for a specific problem. We introduce Quality-Diversity Actor-Critic (QDAC), an off-policy actor-critic deep reinforcement learning algorithm that leverages a value function critic and a successor features critic to learn high-performing and diverse behaviors. In this framework, the actor optimizes an objective that seamlessly unifies both critics using constrained optimization to (1) maximize return, while (2) executing diverse skills. Compared with other Quality-Diversity methods, QDAC achieves significantly higher performance and more diverse behaviors on six challenging continuous control locomotion tasks. We also demonstrate that we can harness the learned skills to adapt better than other baselines to five perturbed environments. Finally, qualitative analyses showcase a range of remarkable behaviors: adaptive-intelligent-robotics.github.io/QDAC.
- Abstract(参考訳): 知性の重要な側面は、予期せぬ状況に適応するための幅広い行動のスペクトルを示す能力である。
過去10年間で、深層強化学習の進歩は、複雑な継続的制御タスクを解決するための画期的な成果をもたらした。
しかし、ほとんどのアプローチは特定の問題に特化した1つの解しか返さない。
本稿では,QDAC(Quality-Diversity Actor-Critic)について紹介する。QDAC(Quality-Diversity Actor-Critic)とは,価値関数批判と後継機能批判を利用して,ハイパフォーマンスで多様な振る舞いを学習する,非政治アクタ批判的深層強化学習アルゴリズムである。
この枠組みでは,(1)リターンを最大化し,(2)多様なスキルを実行するために,アクターが制約付き最適化を用いて両批評家をシームレスに統一する目的を最適化する。
他の品質多様性手法と比較すると、QDACは6つの困難な連続制御ロコモーションタスクにおいて、より高いパフォーマンスとより多様な振る舞いを達成する。
また、学習したスキルを活用して、他のベースラインよりも5つの摂動環境に適応できることも示しています。
最後に、定性的分析は、アダプティブ・インテリジェント・ロボティクス.github.io/QDACという、様々な顕著な行動を示す。
関連論文リスト
- Imitation from Diverse Behaviors: Wasserstein Quality Diversity Imitation Learning with Single-Step Archive Exploration [37.836675202590406]
本研究はWasserstein Quality Diversity Imitation Learning (WQDIL)を紹介する。
Wasserstein Auto-Encoder (WAE) を用いた潜時対人訓練による品質多様性設定における模倣学習の安定性の向上
評価条件付き報酬関数と1ステップのアーカイブ探索ボーナスを用いて、行動過剰化問題を緩和する。
論文 参考訳(メタデータ) (2024-11-11T13:11:18Z) - Quality Diversity Imitation Learning [9.627530753815968]
品質多様性模倣学習のための最初の汎用フレームワーク(QD-IL)を紹介する。
本フレームワークは,品質多様性の原則を逆模倣学習(AIL)法と統合し,逆強化学習(IRL)法を改良する可能性がある。
我々の手法は、最も挑戦的なヒューマノイド環境で2倍のエキスパート性能を達成できる。
論文 参考訳(メタデータ) (2024-10-08T15:49:33Z) - Testing for Fault Diversity in Reinforcement Learning [13.133263651395865]
ポリシテストは可能な限り多くの障害(例えば、同様の自動車事故を引き起こすインプット)を見つけるのではなく、モデルで可能な限り情報的かつ多様な障害を明らかにすることを目的としている、と私たちは主張する。
QDの最適化は概念的には単純であり、一般的に適用可能であるが、決定モデルにおいてより多様な欠点を効果的に発見できることが示される。
論文 参考訳(メタデータ) (2024-03-22T09:46:30Z) - On Task Performance and Model Calibration with Supervised and
Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。
しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Proximal Policy Gradient Arborescence for Quality Diversity
Reinforcement Learning [14.16864939687988]
環境を徹底的に探求し、新しい多様なスキルを学ぶ、一般的に有能なエージェントを訓練することは、ロボット学習の長期的な目標である。
品質多様性強化学習(QD-RL: Quality Diversity Reinforcement Learning)は、両分野の最高の側面をブレンドする新興研究分野である。
論文 参考訳(メタデータ) (2023-05-23T08:05:59Z) - Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。
我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文 参考訳(メタデータ) (2022-12-08T22:34:59Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。