論文の概要: Adaptive Value Decomposition with Greedy Marginal Contribution
Computation for Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.06872v1
- Date: Tue, 14 Feb 2023 07:23:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 16:12:27.455748
- Title: Adaptive Value Decomposition with Greedy Marginal Contribution
Computation for Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): 協調型マルチエージェント強化学習におけるグレディマージナルコントリビューション計算を用いた適応値分解
- Authors: Shanqi Liu, Yujing Hu, Runze Wu, Dong Xing, Yu Xiong, Changjie Fan,
Kun Kuang, Yong Liu
- Abstract要約: 現実世界の協力はしばしばエージェント間の集中的な調整を必要とする。
単調なユーティリティの単調混合として値関数を学習する従来の方法は、非単調なリターンでタスクを解くことはできない。
非単調な問題に対処するための新しい明示的な信用割当手法を提案する。
- 参考スコア(独自算出の注目度): 48.41925886860991
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world cooperation often requires intensive coordination among agents
simultaneously. This task has been extensively studied within the framework of
cooperative multi-agent reinforcement learning (MARL), and value decomposition
methods are among those cutting-edge solutions. However, traditional methods
that learn the value function as a monotonic mixing of per-agent utilities
cannot solve the tasks with non-monotonic returns. This hinders their
application in generic scenarios. Recent methods tackle this problem from the
perspective of implicit credit assignment by learning value functions with
complete expressiveness or using additional structures to improve cooperation.
However, they are either difficult to learn due to large joint action spaces or
insufficient to capture the complicated interactions among agents which are
essential to solving tasks with non-monotonic returns. To address these
problems, we propose a novel explicit credit assignment method to address the
non-monotonic problem. Our method, Adaptive Value decomposition with Greedy
Marginal contribution (AVGM), is based on an adaptive value decomposition that
learns the cooperative value of a group of dynamically changing agents. We
first illustrate that the proposed value decomposition can consider the
complicated interactions among agents and is feasible to learn in large-scale
scenarios. Then, our method uses a greedy marginal contribution computed from
the value decomposition as an individual credit to incentivize agents to learn
the optimal cooperative policy. We further extend the module with an action
encoder to guarantee the linear time complexity for computing the greedy
marginal contribution. Experimental results demonstrate that our method
achieves significant performance improvements in several non-monotonic domains.
- Abstract(参考訳): 現実世界の協力はしばしばエージェント間の集中的な調整を必要とする。
この課題は, 協調型マルチエージェント強化学習(MARL)の枠組みにおいて広く研究されており, 値分解法もその1つである。
しかしながら、単調な効用を単調混合として値関数を学習する従来の手法では、非単調な戻り値でタスクを解くことはできない。
これは汎用的なシナリオでアプリケーションを妨げる。
近年の手法では、完全な表現力を持つ値関数の学習や、協調性を改善するために追加構造を用いることで、暗黙の信用代入の観点からこの問題に対処している。
しかし、大きな共同行動空間のために学ぶのが難しいか、非単調な回帰でタスクを解決するのに不可欠なエージェント間の複雑な相互作用を捉えるのに不十分である。
そこで本研究では,非単調問題に対処するための明示的な信用割当手法を提案する。
本手法は,動的に変化するエージェント群の協調価値を学習する適応値分解に基づいて,適応値分解(adaptive Value decomposition with Greedy Marginal contribute,AVGM)を行う。
まず,提案する値分解はエージェント間の複雑な相互作用を考慮し,大規模シナリオで学ぶことができることを示す。
そこで本手法では, 個別クレジットとして値分解から算出した欲求余剰貢献を用いて, 最適な協調政策を学習する。
我々はさらに、モジュールをアクションエンコーダで拡張し、グリーディな限界寄与を計算するための線形時間複雑性を保証する。
実験の結果,いくつかの非単調領域において有意な性能改善が得られた。
関連論文リスト
- Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning [34.856522993714535]
本稿では,エージェントの連立性を考慮した明示的な信用割当手法であるシェープリー・カウンセリング・クレジット・アサインメントを提案する。
提案手法は,既存の協調型MARLアルゴリズムを著しく上回り,特に難易度の高いタスクにおいて,最先端のアルゴリズムを実現する。
論文 参考訳(メタデータ) (2021-06-01T07:38:34Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。
IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。
連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文 参考訳(メタデータ) (2021-02-10T01:58:28Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。