論文の概要: Optimistic Multi-Agent Policy Gradient for Cooperative Tasks
- arxiv url: http://arxiv.org/abs/2311.01953v1
- Date: Fri, 3 Nov 2023 14:47:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 13:59:43.034425
- Title: Optimistic Multi-Agent Policy Gradient for Cooperative Tasks
- Title(参考訳): 協調作業のための最適マルチエージェントポリシー勾配
- Authors: Wenshuai Zhao, Yi Zhao, Zhiyuan Li, Juho Kannala, Joni Pajarinen
- Abstract要約: textitRelative Over generalization (RO)は、エージェントが最適でない共同政策に収束する際に、協調的なマルチエージェント学習タスクで発生する。
我々は,MAPG手法の楽観的な更新を可能とし,RO問題を緩和するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.51424861341875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: \textit{Relative overgeneralization} (RO) occurs in cooperative multi-agent
learning tasks when agents converge towards a suboptimal joint policy due to
overfitting to suboptimal behavior of other agents. In early work, optimism has
been shown to mitigate the \textit{RO} problem when using tabular Q-learning.
However, with function approximation optimism can amplify overestimation and
thus fail on complex tasks. On the other hand, recent deep multi-agent policy
gradient (MAPG) methods have succeeded in many complex tasks but may fail with
severe \textit{RO}. We propose a general, yet simple, framework to enable
optimistic updates in MAPG methods and alleviate the RO problem. Specifically,
we employ a \textit{Leaky ReLU} function where a single hyperparameter selects
the degree of optimism to reshape the advantages when updating the policy.
Intuitively, our method remains optimistic toward individual actions with lower
returns which are potentially caused by other agents' sub-optimal behavior
during learning. The optimism prevents the individual agents from quickly
converging to a local optimum. We also provide a formal analysis from an
operator view to understand the proposed advantage transformation. In extensive
evaluations on diverse sets of tasks, including illustrative matrix games,
complex \textit{Multi-agent MuJoCo} and \textit{Overcooked} benchmarks, the
proposed method\footnote{Code can be found at
\url{https://github.com/wenshuaizhao/optimappo}.} outperforms strong baselines
on 13 out of 19 tested tasks and matches the performance on the rest.
- Abstract(参考訳): \textit{Relative over generalization} (RO) は、エージェントが他のエージェントの最適動作に過度に適合するため、エージェントが最適でないジョイントポリシーに収束する際に、協調的なマルチエージェント学習タスクで発生する。
初期の研究では、表型Q-ラーニングを使用する場合のtextit{RO}問題を緩和する最適化が示されている。
しかし、関数近似の最適化は過大評価を増幅し、複雑なタスクで失敗する。
一方、最近のディープ・マルチエージェント・ポリシー・グラデーション(MAPG)法は多くの複雑なタスクに成功しているが、深刻な \textit{RO} で失敗する可能性がある。
我々は,MAPG手法の楽観的な更新を可能にし,RO問題を緩和する汎用的でシンプルなフレームワークを提案する。
具体的には、1つのハイパーパラメータが最適化の度合いを選択して、ポリシーを更新する際の利点を再生成する \textit{Leaky ReLU} 関数を用いる。
直感的には、学習中の他のエージェントの準最適行動によって引き起こされる可能性のある低いリターンを持つ個人の行動に対して楽観的である。
楽観主義は、個々のエージェントが局所的最適に素早く収束することを防ぐ。
また,提案するアドバンテージ変換を理解するために,演算子の視点から形式的解析を行う。
図式行列ゲーム、複雑な \textit{Multi-agent MuJoCo} や \textit{Overcooked} ベンチマークを含む様々なタスクセットに関する広範な評価において、提案されたメソッド\footnote{Code は \url{https://github.com/wenshuaizhao/optimappo} で見ることができる。
テストされた19のタスクのうち13のベースラインでパフォーマンスが向上し、残りのタスクのパフォーマンスにマッチする。
関連論文リスト
- Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Multi-Task Off-Policy Learning from Bandit Feedback [54.96011624223482]
本稿では,階層型非政治最適化アルゴリズム (HierOPO) を提案する。
学習方針の準最適性にタスクごとのバウンダリを証明し、階層モデルを使用しないよりも明確な改善を示す。
我々の理論的および実証的な結果は、各タスクを個別に解くよりも、階層を使うことの明確な利点を示している。
論文 参考訳(メタデータ) (2022-12-09T08:26:27Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Asynchronous, Option-Based Multi-Agent Policy Gradient: A Conditional
Reasoning Approach [10.904610735933145]
マルチエージェントポリシー勾配(MAPG)法は、一般的にそのようなポリシーを学ぶために用いられる。
大きな状態とアクション空間を持つ複雑な問題では、より高レベルなアクションを使用するために MAPG メソッドを拡張するのが有利である。
この問題に対処する新しい条件付き推論手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T22:02:28Z) - MACRPO: Multi-Agent Cooperative Recurrent Policy Optimization [17.825845543579195]
我々はtextitMulti-Agent Cooperative Recurrent Proximal Policy Optimization (MACRPO) と呼ばれる新しいマルチエージェントアクター批判手法を提案する。
我々は、批評家のネットワークアーキテクチャにおいてリカレント・レイヤを使用し、メタ・トラジェクトリを使用してリカレント・レイヤをトレーニングする新しいフレームワークを提案する。
連続的および離散的な行動空間を持つ3つの挑戦的マルチエージェント環境において,本アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2021-09-02T12:43:35Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - Multi-Agent Trust Region Policy Optimization [34.91180300856614]
TRPOのポリシー更新は,マルチエージェントケースに対する分散コンセンサス最適化問題に変換可能であることを示す。
マルチエージェントTRPO(MATRPO)と呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-15T17:49:47Z) - Multiagent Value Iteration Algorithms in Dynamic Programming and
Reinforcement Learning [0.0]
各段階における制御がいくつかの異なる決定から構成される無限水平動的プログラミング問題を考える。
以前の研究では、ポリシーの反復アルゴリズムを導入しました。
論文 参考訳(メタデータ) (2020-05-04T16:34:24Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。