論文の概要: Context-Aware Bayesian Network Actor-Critic Methods for Cooperative
Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.01920v1
- Date: Fri, 2 Jun 2023 21:22:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 23:12:16.546297
- Title: Context-Aware Bayesian Network Actor-Critic Methods for Cooperative
Multi-Agent Reinforcement Learning
- Title(参考訳): 協調型マルチエージェント強化学習のためのコンテキストアウェアベイズネットワークアクタ-クリティック手法
- Authors: Dingyang Chen, Qi Zhang
- Abstract要約: 本稿では, エージェントの行動選択の相関関係を, 共同政策に導入するベイズネットワークを提案する。
本研究では,コンテキスト認識型ベイズ型ネットワークポリシを学習するための実用的なアルゴリズムを開発した。
MARLベンチマークの実証結果は,我々のアプローチの利点を示している。
- 参考スコア(独自算出の注目度): 7.784991832712813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Executing actions in a correlated manner is a common strategy for human
coordination that often leads to better cooperation, which is also potentially
beneficial for cooperative multi-agent reinforcement learning (MARL). However,
the recent success of MARL relies heavily on the convenient paradigm of purely
decentralized execution, where there is no action correlation among agents for
scalability considerations. In this work, we introduce a Bayesian network to
inaugurate correlations between agents' action selections in their joint
policy. Theoretically, we establish a theoretical justification for why action
dependencies are beneficial by deriving the multi-agent policy gradient formula
under such a Bayesian network joint policy and proving its global convergence
to Nash equilibria under tabular softmax policy parameterization in cooperative
Markov games. Further, by equipping existing MARL algorithms with a recent
method of differentiable directed acyclic graphs (DAGs), we develop practical
algorithms to learn the context-aware Bayesian network policies in scenarios
with partial observability and various difficulty. We also dynamically decrease
the sparsity of the learned DAG throughout the training process, which leads to
weakly or even purely independent policies for decentralized execution.
Empirical results on a range of MARL benchmarks show the benefits of our
approach.
- Abstract(参考訳): 相互に関連付けられた方法で行動を実行することは、協調性の向上につながることの多い、人間の協調のための共通の戦略であり、協調的マルチエージェント強化学習(marl)にも有益である。
しかしながら、最近のmarlの成功は、拡張性を考慮したエージェント間のアクション相関がない純粋に分散した実行の便利なパラダイムに大きく依存している。
本研究では,エージェントの行動選択と協調政策の相関関係を定式化するためのベイズネットワークを提案する。
理論的には、このようなベイズネットワーク合同政策の下でマルチエージェント政策勾配式を導出し、協調マルコフゲームにおける表型ソフトマックス政策パラメータ化の下でnash平衡へのグローバル収束を証明し、なぜアクション依存が有益であるかを理論的に正当化する。
さらに,既存のmarlアルゴリズムを最近の微分可能有向非巡回グラフ(dag)法に応用することにより,部分可観測性と様々な難易度を有するシナリオにおいて,コンテキスト認識ベイズネットワークポリシーを学習するための実用的なアルゴリズムを開発した。
また、学習したDAGの分散度をトレーニングプロセスを通じて動的に減少させ、分散実行のための弱いあるいは純粋に独立したポリシーへと導く。
MARLベンチマークの実証結果は,我々のアプローチの利点を示している。
関連論文リスト
- Mixed Q-Functionals: Advancing Value-Based Methods in Cooperative MARL
with Continuous Action Domains [0.0]
本稿では,Q-Functionalsのアイデアに触発された新しいマルチエージェント値ベースアルゴリズム,Mixed Q-Functionals(MQF)を提案する。
本アルゴリズムは,アクション値の混合によりエージェント間の協調を促進する。
実験の結果、MQFはDeep Deterministic Policy Gradientの4つの変種より優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-12T16:21:50Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Toward Risk-based Optimistic Exploration for Cooperative Multi-Agent
Reinforcement Learning [9.290757451344673]
分布のサンプリング領域をシフトさせることにより協調的に楽観的な行動をもたらすリスクベースの探索を提案する。
本手法は, 量子レグレッションに基づく協調探索を必要とするマルチエージェント環境において, 顕著な性能を示す。
論文 参考訳(メタデータ) (2023-03-03T08:17:57Z) - Towards Global Optimality in Cooperative MARL with the Transformation
And Distillation Framework [26.612749327414335]
分散実行は協調型マルチエージェント強化学習(MARL)における中核的要求である
本稿では,マルチエージェントポリシー勾配法と値分解法という,分散ポリシを用いた2つの一般的なアルゴリズムのクラスを理論的に解析する。
我々は,TAD-PPO が有限マルチエージェント MDP において最適政策学習を理論的に行うことができることを示す。
論文 参考訳(メタデータ) (2022-07-12T06:59:13Z) - Revisiting Some Common Practices in Cooperative Multi-Agent
Reinforcement Learning [11.91425153754564]
高いマルチモーダルな報酬ランドスケープ、価値分解、パラメータ共有が問題になり、望ましくない結果をもたらす可能性があることを示す。
対照的に、個々のポリシーを持つポリシー勾配(PG)法は、これらの場合において最適解に確実に収束する。
本稿では,多エージェントPGアルゴリズムの実装に関する実践的提案を行う。
論文 参考訳(メタデータ) (2022-06-15T13:03:05Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - A Deep Reinforcement Learning Approach to Marginalized Importance
Sampling with the Successor Representation [61.740187363451746]
マージナライズド・プライバシ・サンプリング(MIS)は、ターゲットポリシーのステートアクション占有率とサンプリング分布の密度比を測定する。
我々は,MISと深層強化学習のギャップを,目標方針の後継表現から密度比を計算することによって埋める。
我々は,Atari環境とMuJoCo環境に対するアプローチの実証的性能を評価した。
論文 参考訳(メタデータ) (2021-06-12T20:21:38Z) - Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。
IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。
連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文 参考訳(メタデータ) (2021-02-10T01:58:28Z) - Cooperative Policy Learning with Pre-trained Heterogeneous Observation
Representations [51.8796674904734]
事前訓練された異種観察表現を用いた新たな協調学習フレームワークを提案する。
エンコーダ-デコーダに基づくグラフアテンションを用いて、複雑な相互作用と異種表現を学習する。
論文 参考訳(メタデータ) (2020-12-24T04:52:29Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。