論文の概要: Enhancing Cooperative Multi-Agent Reinforcement Learning with State Modelling and Adversarial Exploration
- arxiv url: http://arxiv.org/abs/2505.05262v1
- Date: Thu, 08 May 2025 14:07:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.910417
- Title: Enhancing Cooperative Multi-Agent Reinforcement Learning with State Modelling and Adversarial Exploration
- Title(参考訳): 状態モデリングと逆探索による協調的マルチエージェント強化学習の強化
- Authors: Andreas Kontogiannis, Konstantinos Papathanasiou, Yi Shen, Giorgos Stamou, Michael M. Zavlanos, George Vouros,
- Abstract要約: 分散部分観測環境における協調学習はマルチエージェント深部強化学習(MARL)に重大な課題をもたらす
本稿では,個々のエージェント観測から状態表現を推定することに着目し,この領域における重要な懸念に対処する。
本稿では,非可観測状態の有意義な信念表現をエージェントが推論する,協調的MARLのための新しい状態モデリングフレームワークを提案する。
SMPEは,MPE,LBF,RWAREベンチマークの複雑な完全協調タスクにおいて,最先端のMARLアルゴリズムよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 9.80657085835352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning to cooperate in distributed partially observable environments with no communication abilities poses significant challenges for multi-agent deep reinforcement learning (MARL). This paper addresses key concerns in this domain, focusing on inferring state representations from individual agent observations and leveraging these representations to enhance agents' exploration and collaborative task execution policies. To this end, we propose a novel state modelling framework for cooperative MARL, where agents infer meaningful belief representations of the non-observable state, with respect to optimizing their own policies, while filtering redundant and less informative joint state information. Building upon this framework, we propose the MARL SMPE algorithm. In SMPE, agents enhance their own policy's discriminative abilities under partial observability, explicitly by incorporating their beliefs into the policy network, and implicitly by adopting an adversarial type of exploration policies which encourages agents to discover novel, high-value states while improving the discriminative abilities of others. Experimentally, we show that SMPE outperforms state-of-the-art MARL algorithms in complex fully cooperative tasks from the MPE, LBF, and RWARE benchmarks.
- Abstract(参考訳): コミュニケーション能力のない分散部分観測環境における協調学習は,マルチエージェント深部強化学習(MARL)において大きな課題となる。
本稿では、各エージェントの観察から状態表現を推測し、エージェントの探索・協調作業実行ポリシーを強化するためにこれらの表現を活用することに焦点を当て、この領域における重要な懸念に対処する。
そこで本研究では,非可観測状態の有意義な信念表現をエージェントが推論し,冗長で情報の少ない共同状態情報をフィルタリングしながら,自己の方針を最適化する,協調的MARLのための新しい状態モデリングフレームワークを提案する。
この枠組みに基づいて,MARL SMPEアルゴリズムを提案する。
SMPEでは、エージェントは政策ネットワークに自らの信念を組み込むことによって、部分的可観測性の下で自身の政策の差別能力を高めるとともに、エージェントが新たな高価値な状態を発見できるように促し、他者の差別能力を改善しながら、敵対的なタイプの探索ポリシーを採用することで暗黙的に、自らの政策の差別能力を高める。
SMPEは,MPE,LBF,RWAREベンチマークの複雑な完全協調タスクにおいて,最先端のMARLアルゴリズムよりも優れていることを示す。
関連論文リスト
- Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards [1.179778723980276]
MARL(Multi-agent Reinforcement Learning)は、シーケンシャルな意思決定と制御タスクの鍵となるフレームワークである。
これらのシステムを現実のシナリオに展開するには、分散トレーニング、多様なエージェントセット、そして頻繁な環境報酬信号から学ぶ必要がある。
我々は,新しいグラフニューラルネットワーク(GNN)に基づく本質的なモチベーションを利用して,異種エージェントポリシーの学習を容易にするCoHetアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-12T21:38:40Z) - Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning [54.40927310957792]
異種チーム内の各エージェントを個別にカスタマイズした、個人化された専門家によるデモンストレーションという新しい概念を導入する。
これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まない個人的目標を達成する方法にのみ関係している。
本稿では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力することを学ぶためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-13T20:11:20Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - K-SHAP: Policy Clustering Algorithm for Anonymous Multi-Agent
State-Action Pairs [1.2891210250935146]
金融市場では、市場参加者戦略を特定するラベル付きデータは一般的にプロプライエタリである。
本稿では、エージェントポリシーに従って匿名状態-アクションペアをグループ化するポリシークラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-23T13:18:12Z) - Iterated Reasoning with Mutual Information in Cooperative and Byzantine
Decentralized Teaming [0.0]
我々は,政策グラディエント(PG)の下での最適化において,エージェントの方針がチームメイトの方針に準じることが,本質的に相互情報(MI)の下限を最大化することを示す。
我々の手法であるInfoPGは、創発的協調行動の学習におけるベースラインを上回り、分散協調型MARLタスクにおける最先端の課題を設定します。
論文 参考訳(メタデータ) (2022-01-20T22:54:32Z) - Scalable Multi-Agent Reinforcement Learning for Residential Load Scheduling under Data Governance [5.37556626581816]
マルチエージェント強化学習 (MARL) は, 協調型住宅負荷スケジューリング問題において, 顕著な進歩を遂げている。
MARLの最も一般的なパラダイムである集中型トレーニングは、通信制約のあるクラウドエッジ環境における大規模デプロイメントを制限する。
提案手法は,家庭の局所的な観察のみに基づく個人評論家の学習機能である,アクタ批判的手法に基づく。
論文 参考訳(メタデータ) (2021-10-06T14:05:26Z) - Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning [25.027143431992755]
信頼領域の手法により、強化学習(RL)エージェントが単調な政策改善を学ぶことができるようになり、様々なタスクにおいて優れたパフォーマンスが得られた。
残念ながら、マルチエージェント強化学習(MARL)では、単調改善の特性は単純に適用できない。
本稿では、信頼領域学習の理論をMARLに拡張し、マルチエージェント・アドバンテージ分解補題とシーケンシャルポリシー更新スキームについて述べる。
これらに基づき、異種信託地域政策最適化(HATPRO)と異種信託地域政策最適化(HATPRO)を開発する。
論文 参考訳(メタデータ) (2021-09-23T09:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。