論文の概要: Optimistic Multi-Agent Policy Gradient for Cooperative Tasks
- arxiv url: http://arxiv.org/abs/2311.01953v1
- Date: Fri, 3 Nov 2023 14:47:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 13:59:43.034425
- Title: Optimistic Multi-Agent Policy Gradient for Cooperative Tasks
- Title(参考訳): 協調作業のための最適マルチエージェントポリシー勾配
- Authors: Wenshuai Zhao, Yi Zhao, Zhiyuan Li, Juho Kannala, Joni Pajarinen
- Abstract要約: textitRelative Over generalization (RO)は、エージェントが最適でない共同政策に収束する際に、協調的なマルチエージェント学習タスクで発生する。
我々は,MAPG手法の楽観的な更新を可能とし,RO問題を緩和するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.51424861341875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: \textit{Relative overgeneralization} (RO) occurs in cooperative multi-agent
learning tasks when agents converge towards a suboptimal joint policy due to
overfitting to suboptimal behavior of other agents. In early work, optimism has
been shown to mitigate the \textit{RO} problem when using tabular Q-learning.
However, with function approximation optimism can amplify overestimation and
thus fail on complex tasks. On the other hand, recent deep multi-agent policy
gradient (MAPG) methods have succeeded in many complex tasks but may fail with
severe \textit{RO}. We propose a general, yet simple, framework to enable
optimistic updates in MAPG methods and alleviate the RO problem. Specifically,
we employ a \textit{Leaky ReLU} function where a single hyperparameter selects
the degree of optimism to reshape the advantages when updating the policy.
Intuitively, our method remains optimistic toward individual actions with lower
returns which are potentially caused by other agents' sub-optimal behavior
during learning. The optimism prevents the individual agents from quickly
converging to a local optimum. We also provide a formal analysis from an
operator view to understand the proposed advantage transformation. In extensive
evaluations on diverse sets of tasks, including illustrative matrix games,
complex \textit{Multi-agent MuJoCo} and \textit{Overcooked} benchmarks, the
proposed method\footnote{Code can be found at
\url{https://github.com/wenshuaizhao/optimappo}.} outperforms strong baselines
on 13 out of 19 tested tasks and matches the performance on the rest.
- Abstract(参考訳): \textit{Relative over generalization} (RO) は、エージェントが他のエージェントの最適動作に過度に適合するため、エージェントが最適でないジョイントポリシーに収束する際に、協調的なマルチエージェント学習タスクで発生する。
初期の研究では、表型Q-ラーニングを使用する場合のtextit{RO}問題を緩和する最適化が示されている。
しかし、関数近似の最適化は過大評価を増幅し、複雑なタスクで失敗する。
一方、最近のディープ・マルチエージェント・ポリシー・グラデーション(MAPG)法は多くの複雑なタスクに成功しているが、深刻な \textit{RO} で失敗する可能性がある。
我々は,MAPG手法の楽観的な更新を可能にし,RO問題を緩和する汎用的でシンプルなフレームワークを提案する。
具体的には、1つのハイパーパラメータが最適化の度合いを選択して、ポリシーを更新する際の利点を再生成する \textit{Leaky ReLU} 関数を用いる。
直感的には、学習中の他のエージェントの準最適行動によって引き起こされる可能性のある低いリターンを持つ個人の行動に対して楽観的である。
楽観主義は、個々のエージェントが局所的最適に素早く収束することを防ぐ。
また,提案するアドバンテージ変換を理解するために,演算子の視点から形式的解析を行う。
図式行列ゲーム、複雑な \textit{Multi-agent MuJoCo} や \textit{Overcooked} ベンチマークを含む様々なタスクセットに関する広範な評価において、提案されたメソッド\footnote{Code は \url{https://github.com/wenshuaizhao/optimappo} で見ることができる。
テストされた19のタスクのうち13のベースラインでパフォーマンスが向上し、残りのタスクのパフォーマンスにマッチする。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Toward Finding Strong Pareto Optimal Policies in Multi-Agent Reinforcement Learning [0.20718016474717196]
各エージェントが報酬のみを最適化するアルゴリズムは、任意のアルゴリズムが最適下収束の対象であることを示す。
この観察は多目的最適化フレームワークと多エージェント強化学習を同時に橋渡しする。
提案手法は,収束ポリシーの最適性の観点から,効率よく収束し,他の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-25T08:19:49Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning [25.027143431992755]
信頼領域の手法により、強化学習(RL)エージェントが単調な政策改善を学ぶことができるようになり、様々なタスクにおいて優れたパフォーマンスが得られた。
残念ながら、マルチエージェント強化学習(MARL)では、単調改善の特性は単純に適用できない。
本稿では、信頼領域学習の理論をMARLに拡張し、マルチエージェント・アドバンテージ分解補題とシーケンシャルポリシー更新スキームについて述べる。
これらに基づき、異種信託地域政策最適化(HATPRO)と異種信託地域政策最適化(HATPRO)を開発する。
論文 参考訳(メタデータ) (2021-09-23T09:44:35Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - Multi-Agent Trust Region Policy Optimization [34.91180300856614]
TRPOのポリシー更新は,マルチエージェントケースに対する分散コンセンサス最適化問題に変換可能であることを示す。
マルチエージェントTRPO(MATRPO)と呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-15T17:49:47Z) - Off-Policy Multi-Agent Decomposed Policy Gradients [30.389041305278045]
我々は、MAPGアルゴリズムの性能を阻害する原因を調査し、マルチエージェント分解ポリシー勾配法(DOP)を提案する。
DOPは効率的な非政治学習をサポートし、中央集権型ミスマッチと信用割当の問題に対処する。
さらに、StarCraft IIマイクロマネジメントベンチマークとマルチエージェント粒子環境に関する実証的な評価は、DOPが最先端の値ベースおよびポリシーベースのマルチエージェント強化学習アルゴリズムよりも大幅に優れていることを示している。
論文 参考訳(メタデータ) (2020-07-24T02:21:55Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。