論文の概要: DGPO: Discovering Multiple Strategies with Diversity-Guided Policy
Optimization
- arxiv url: http://arxiv.org/abs/2207.05631v1
- Date: Tue, 12 Jul 2022 15:57:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 13:49:59.445420
- Title: DGPO: Discovering Multiple Strategies with Diversity-Guided Policy
Optimization
- Title(参考訳): DGPO:多様性誘導政策最適化による複数戦略の発見
- Authors: Wenze Chen, Shiyu Huang, Yuan Chiang, Ting Chen, Jun Zhu
- Abstract要約: 同一タスクに対する複数の戦略を発見するためのオンラインフレームワークを提案する。
我々のアルゴリズムは、多様性の目標を使用して、潜在コード条件付きポリシーをガイドし、単一のトレーニング手順で多様な戦略のセットを学習する。
実験結果から,本手法は多種多様な強化学習タスクにおいて,多種多様な戦略を効果的に発見できることが示唆された。
- 参考スコア(独自算出の注目度): 28.06058885203112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent algorithms designed for reinforcement learning tasks focus on finding
a single optimal solution. However, in many practical applications, it is
important to develop reasonable agents with diverse strategies. In this paper,
we propose Diversity-Guided Policy Optimization (DGPO), an on-policy framework
for discovering multiple strategies for the same task. Our algorithm uses
diversity objectives to guide a latent code conditioned policy to learn a set
of diverse strategies in a single training procedure. Specifically, we
formalize our algorithm as the combination of a diversity-constrained
optimization problem and an extrinsic-reward constrained optimization problem.
And we solve the constrained optimization as a probabilistic inference task and
use policy iteration to maximize the derived lower bound. Experimental results
show that our method efficiently finds diverse strategies in a wide variety of
reinforcement learning tasks. We further show that DGPO achieves a higher
diversity score and has similar sample complexity and performance compared to
other baselines.
- Abstract(参考訳): 最近の強化学習タスク用に設計されたアルゴリズムは、単一の最適解を見つけることに焦点を当てている。
しかし、多くの実践的応用において、多様な戦略を持つ合理的なエージェントを開発することが重要である。
本稿では、同一タスクに対する複数の戦略を発見するためのオンラインフレームワークである多様性誘導政策最適化(DGPO)を提案する。
本アルゴリズムは、多様性目標を用いて潜在コード条件付きポリシーを導出し、1つのトレーニング手順で一連の多様な戦略を学ぶ。
具体的には,多様性制約付き最適化問題と外部制約付き最適化問題の組み合わせとして,アルゴリズムを定式化する。
そして、制約付き最適化を確率的推論タスクとして解決し、ポリシー反復を用いて導出した下界を最大化する。
実験の結果,多種多様な強化学習タスクにおいて,効率的に多様な戦略を見出すことができた。
さらに,dgpoは多様性スコアが高く,サンプルの複雑さや性能も他のベースラインと同等であることを示した。
関連論文リスト
- Human-in-the-Loop Policy Optimization for Preference-Based
Multi-Objective Reinforcement Learning [13.627087954965695]
好みに基づくMORLのためのHuman-in-the-loopポリシー最適化フレームワークを提案する。
本手法は,事前知識を必要とせずに,DMの暗黙の選好情報を積極的に学習する。
我々は従来の3つのMORLアルゴリズムと4つの最先端の選好に基づくMORLアルゴリズムに対するアプローチを評価する。
論文 参考訳(メタデータ) (2024-01-04T09:17:53Z) - Policy Diversity for Cooperative Agents [8.689289576285095]
マルチエージェント強化学習は、タスクを完了するための最適なチーム協調政策を見つけることを目的としている。
協調には複数の異なる方法があり、通常はドメインの専門家が非常に必要とします。
残念なことに、マルチエージェントドメイン用に特別に設計された効果的なポリシーの多様性アプローチが欠如している。
論文 参考訳(メタデータ) (2023-08-28T05:23:16Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Sample-Efficient Multi-Objective Learning via Generalized Policy
Improvement Prioritization [8.836422771217084]
マルチオブジェクト強化学習(MORL)アルゴリズムは、エージェントが異なる好みを持つ可能性のあるシーケンシャルな決定問題に対処する。
本稿では、一般化政策改善(GPI)を用いて、原則的、正式に派生した優先順位付けスキームを定義する新しいアルゴリズムを提案する。
実験により,本手法は多目的タスクの挑戦において,最先端のMORLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-18T20:54:40Z) - Discovering Policies with DOMiNO: Diversity Optimization Maintaining
Near Optimality [26.69352834457256]
我々はこの問題を制約付きマルコフ決定過程として定式化する。
目的は、集合内の政策の国家占有率間の距離によって測定される多様な政策を見つけることである。
本手法は様々な領域において多様かつ有意義な振る舞いを発見できることを示す。
論文 参考訳(メタデータ) (2022-05-26T17:40:52Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Discovering Diverse Nearly Optimal Policies withSuccessor Features [30.144946007098852]
強化学習では、多様なポリシーの集合が探索、移動、階層化、堅牢性に有用である。
本稿では,継承的特徴の空間において多種多様であるポリシーを発見する方法として,多元的継承政策を提案する。
論文 参考訳(メタデータ) (2021-06-01T17:56:13Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。