論文の概要: PMIC: Improving Multi-Agent Reinforcement Learning with Progressive
Mutual Information Collaboration
- arxiv url: http://arxiv.org/abs/2203.08553v1
- Date: Wed, 16 Mar 2022 11:28:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 15:25:07.153281
- Title: PMIC: Improving Multi-Agent Reinforcement Learning with Progressive
Mutual Information Collaboration
- Title(参考訳): pmic:プログレッシブ相互情報コラボレーションによるマルチエージェント強化学習の改善
- Authors: Pengyi Li, Hongyao Tang, Tianpei Yang, Xiaotian Hao, Tong Sang, Yan
Zheng, Jianye Hao, Matthew E.Taylor, Zhen Wang
- Abstract要約: 協調学習はマルチエージェント強化学習(MARL)において重要である
より効果的なMI駆動コラボレーションのためのPMIC(Progressive Mutual Information Collaboration)という新しいフレームワークを提案する。
PMICは、より優れた相互作用経験と劣る相互作用経験のセットを徐々に保存し、徐々に維持する。
- 参考スコア(独自算出の注目度): 37.69262027583926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to collaborate is critical in multi-agent reinforcement learning
(MARL). A number of previous works promote collaboration by maximizing the
correlation of agents' behaviors, which is typically characterised by mutual
information (MI) in different forms. However, in this paper, we reveal that
strong correlation can emerge from sub-optimal collaborative behaviors, and
simply maximizing the MI can, surprisingly, hinder the learning towards better
collaboration. To address this issue, we propose a novel MARL framework, called
Progressive Mutual Information Collaboration (PMIC), for more effective
MI-driven collaboration. In PMIC, we use a new collaboration criterion measured
by the MI between global states and joint actions. Based on the criterion, the
key idea of PMIC is maximizing the MI associated with superior collaborative
behaviors and minimizing the MI associated with inferior ones. The two MI
objectives play complementary roles by facilitating learning towards better
collaborations while avoiding falling into sub-optimal ones. Specifically, PMIC
stores and progressively maintains sets of superior and inferior interaction
experiences, from which dual MI neural estimators are established. Experiments
on a wide range of MARL benchmarks show the superior performance of PMIC
compared with other algorithms.
- Abstract(参考訳): 協調学習はマルチエージェント強化学習(MARL)において重要である。
エージェントの行動の相関を最大化し、様々な形態の相互情報(MI)によって特徴付けられるようにすることで、多くの先行研究が協力を促進する。
しかし,本稿では,最適でない協調行動から強い相関が生まれ,MIの最大化が驚くべきことに,より優れたコラボレーションへの学習を妨げることを明らかにする。
本稿では,より効果的なmi-driven collaborationを実現するために,progressive mutual information collaboration (pmic) と呼ばれる新しいmarlフレームワークを提案する。
PMICでは、世界国家と共同行動の間のMIによって測定される新しい協調基準を用いる。
この基準に基づき、PMICの鍵となる考え方は、より優れた協調行動に関連するMIを最大化し、劣ったものに関連するMIを最小化することである。
2つのMI目的は、より優れたコラボレーションに向けた学習を促進すると同時に、準最適に陥ることを避けることで補完的な役割を果たす。
具体的には、PMICは、より優れた相互作用経験と劣る相互作用経験のセットを徐々に保存し、徐々に維持する。
幅広いMARLベンチマークの実験は、他のアルゴリズムと比較してPMICの優れた性能を示している。
関連論文リスト
- Mutual Theory of Mind in Human-AI Collaboration: An Empirical Study with LLM-driven AI Agents in a Real-time Shared Workspace Task [56.92961847155029]
心の理論(ToM)は、他人を理解する上で重要な能力として、人間の協調とコミュニケーションに大きな影響を及ぼす。
Mutual Theory of Mind (MToM) は、ToM能力を持つAIエージェントが人間と協力するときに発生する。
エージェントのToM能力はチームのパフォーマンスに大きな影響を与えず,エージェントの人間的理解を高めていることがわかった。
論文 参考訳(メタデータ) (2024-09-13T13:19:48Z) - What Makes Good Collaborative Views? Contrastive Mutual Information Maximization for Multi-Agent Perception [52.41695608928129]
マルチエージェント認識(MAP)は、複数のソースからのデータを解釈することで、自律システムが複雑な環境を理解することを可能にする。
本稿では,MAPにおける協調的視点の「良い」特性を探求することに焦点を当てた中間的協調について検討する。
中間コラボレーションのための新しいフレームワークCMiMCを提案する。
論文 参考訳(メタデータ) (2024-03-15T07:18:55Z) - Situation-Dependent Causal Influence-Based Cooperative Multi-agent
Reinforcement Learning [18.054709749075194]
我々は、状況依存因果関係に基づく協調マルチエージェント強化学習(SCIC)という新しいMARLアルゴリズムを提案する。
本研究の目的は,特定の状況におけるエージェント間因果関係の影響を,因果介入と条件付き相互情報を用いて検出することである。
結果として得られたアップデートは、協調した探索と本質的な報酬分布をリンクし、全体的なコラボレーションとパフォーマンスを高めた。
論文 参考訳(メタデータ) (2023-12-15T05:09:32Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Iterated Reasoning with Mutual Information in Cooperative and Byzantine
Decentralized Teaming [0.0]
我々は,政策グラディエント(PG)の下での最適化において,エージェントの方針がチームメイトの方針に準じることが,本質的に相互情報(MI)の下限を最大化することを示す。
我々の手法であるInfoPGは、創発的協調行動の学習におけるベースラインを上回り、分散協調型MARLタスクにおける最先端の課題を設定します。
論文 参考訳(メタデータ) (2022-01-20T22:54:32Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Provably Efficient Cooperative Multi-Agent Reinforcement Learning with
Function Approximation [15.411902255359074]
定常的な通信予算を一定に保っても,ほぼ最適に学習できることを示す。
私たちの仕事は、マルチエージェントコンテキストとマルチアームバンディット文学からMDP、強化学習まで、いくつかのアイデアを一般化します。
論文 参考訳(メタデータ) (2021-03-08T18:51:00Z) - Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。
IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。
連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文 参考訳(メタデータ) (2021-02-10T01:58:28Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。