論文の概要: Policy Diversity for Cooperative Agents
- arxiv url: http://arxiv.org/abs/2308.14308v1
- Date: Mon, 28 Aug 2023 05:23:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 15:30:53.424524
- Title: Policy Diversity for Cooperative Agents
- Title(参考訳): 協力エージェントの政策多様性
- Authors: Mingxi Tan, Andong Tian and Ludovic Denoyer
- Abstract要約: マルチエージェント強化学習は、タスクを完了するための最適なチーム協調政策を見つけることを目的としている。
協調には複数の異なる方法があり、通常はドメインの専門家が非常に必要とします。
残念なことに、マルチエージェントドメイン用に特別に設計された効果的なポリシーの多様性アプローチが欠如している。
- 参考スコア(独自算出の注目度): 8.689289576285095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard cooperative multi-agent reinforcement learning (MARL) methods aim to
find the optimal team cooperative policy to complete a task. However there may
exist multiple different ways of cooperating, which usually are very needed by
domain experts. Therefore, identifying a set of significantly different
policies can alleviate the task complexity for them. Unfortunately, there is a
general lack of effective policy diversity approaches specifically designed for
the multi-agent domain. In this work, we propose a method called
Moment-Matching Policy Diversity to alleviate this problem. This method can
generate different team policies to varying degrees by formalizing the
difference between team policies as the difference in actions of selected
agents in different policies. Theoretically, we show that our method is a
simple way to implement a constrained optimization problem that regularizes the
difference between two trajectory distributions by using the maximum mean
discrepancy. The effectiveness of our approach is demonstrated on a challenging
team-based shooter.
- Abstract(参考訳): 標準協調型マルチエージェント強化学習(MARL)手法は,タスク完了のための最適なチーム協調政策を見つけることを目的としている。
しかし、複数の異なる協調方法が存在し、通常はドメインの専門家が非常に必要とします。
したがって、著しく異なるポリシーのセットを特定することは、それらのタスクの複雑さを軽減することができる。
残念なことに、マルチエージェントドメイン用に特別に設計された効果的なポリシーの多様性アプローチが欠如している。
本研究では,この問題を軽減するために,モーメントマッチング政策の多様性という手法を提案する。
この方法は、選択されたエージェントの行動の違いとしてチームポリシーの違いを定式化することで、異なる程度に異なるチームポリシーを生成することができる。
理論上,本手法は最大平均偏差を用いて2つの軌道分布間の差を定式化する制約付き最適化問題を実現するための簡単な方法であることを示す。
我々のアプローチの有効性は、挑戦的なチームベースのシューティングで実証される。
関連論文リスト
- Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - DGPO: Discovering Multiple Strategies with Diversity-Guided Policy
Optimization [34.40615558867965]
与えられたタスクを解決するための複数の戦略を探索するオンラインアルゴリズムを提案する。
以前の作業とは異なり、単一の実行でトレーニングされた共有ポリシネットワークでこれを実現する。
実験結果から,本手法は多種多様な強化学習課題における多様な戦略を効果的に発見できることが示唆された。
論文 参考訳(メタデータ) (2022-07-12T15:57:55Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Developing cooperative policies for multi-stage reinforcement learning
tasks [0.0]
多くの階層的強化学習アルゴリズムは、より高い推論レベルでタスクを解決するために、一連の独立したスキルを基礎として利用している。
本稿では,連続エージェントが長期水平多段階タスクを協調的に解決できる協調的協調政策(CCP)手法を提案する。
論文 参考訳(メタデータ) (2022-05-11T01:31:04Z) - Asynchronous, Option-Based Multi-Agent Policy Gradient: A Conditional
Reasoning Approach [10.904610735933145]
マルチエージェントポリシー勾配(MAPG)法は、一般的にそのようなポリシーを学ぶために用いられる。
大きな状態とアクション空間を持つ複雑な問題では、より高レベルなアクションを使用するために MAPG メソッドを拡張するのが有利である。
この問題に対処する新しい条件付き推論手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T22:02:28Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Contrastive Explanations for Comparing Preferences of Reinforcement
Learning Agents [16.605295052893986]
報酬関数が単純でない複雑なタスクでは、報酬関数に対する個々の目的の影響を調整することで、多重強化学習(RL)ポリシーを訓練することができる。
この研究では、同じタスクで訓練された2つのポリシーの振る舞いを、目的において異なる好みで比較します。
本稿では,2つのRLエージェントの嗜好の相反する結果の相違から生じる行動の差異を識別する手法を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:57:57Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。