論文の概要: Communication-Efficient Actor-Critic Methods for Homogeneous Markov
Games
- arxiv url: http://arxiv.org/abs/2202.09422v1
- Date: Fri, 18 Feb 2022 20:35:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-26 20:25:56.200779
- Title: Communication-Efficient Actor-Critic Methods for Homogeneous Markov
Games
- Title(参考訳): 均質マルコフゲームのための通信効率の良いアクター臨界法
- Authors: Dingyang Chen, Yile Li, Qi Zhang
- Abstract要約: 政策共有は、特定のタスクにおける効率的な学習には不可欠であるが、理論上の正当化は欠如している。
コンセンサスに基づく最初の分散型アクター批判手法を開発した。
また,訓練中の通信コストを削減するために,分散型アクター批判手法に基づく実用的なアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 6.589813623221242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent success in cooperative multi-agent reinforcement learning (MARL)
relies on centralized training and policy sharing. Centralized training
eliminates the issue of non-stationarity MARL yet induces large communication
costs, and policy sharing is empirically crucial to efficient learning in
certain tasks yet lacks theoretical justification. In this paper, we formally
characterize a subclass of cooperative Markov games where agents exhibit a
certain form of homogeneity such that policy sharing provably incurs no
suboptimality. This enables us to develop the first consensus-based
decentralized actor-critic method where the consensus update is applied to both
the actors and the critics while ensuring convergence. We also develop
practical algorithms based on our decentralized actor-critic method to reduce
the communication cost during training, while still yielding policies
comparable with centralized training.
- Abstract(参考訳): 協調型マルチエージェント強化学習(marl)の最近の成功は、集中型トレーニングと方針共有に依存している。
集中トレーニングは、非定常MARLの問題を排除するが、大きな通信コストを発生させ、政策共有は特定のタスクにおける効率的な学習において経験的に重要なものであり、理論上の正当化を欠いている。
本稿では,政策共有が必然的に最適でないようなある種の均質性を示すマルコフゲームのサブクラスを,エージェントが正式に特徴づける。
これにより、コンセンサスに基づく最初の分散型アクター批判手法を開発し、コンセンサスを確保しつつ、アクターと批評家の両方にコンセンサス更新を適用することができる。
また,集中学習に匹敵する政策を採りながら,訓練中の通信コストを削減するために,分散型アクター批判法に基づく実用的なアルゴリズムを開発した。
関連論文リスト
- ROMA-iQSS: An Objective Alignment Approach via State-Based Value Learning and ROund-Robin Multi-Agent Scheduling [44.276285521929424]
本稿では,エージェントが独立して最適な状態を発見できる分散状態ベース価値学習アルゴリズムを提案する。
我々の理論分析は、我々のアプローチが分散化されたエージェントを最適な集団政策へと導くことを示している。
さらに実験により,本手法が既存の分散状態ベースおよび行動ベース価値学習戦略より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-05T09:39:47Z) - Context-Aware Bayesian Network Actor-Critic Methods for Cooperative
Multi-Agent Reinforcement Learning [7.784991832712813]
本稿では, エージェントの行動選択の相関関係を, 共同政策に導入するベイズネットワークを提案する。
本研究では,コンテキスト認識型ベイズ型ネットワークポリシを学習するための実用的なアルゴリズムを開発した。
MARLベンチマークの実証結果は,我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2023-06-02T21:22:27Z) - Is Centralized Training with Decentralized Execution Framework
Centralized Enough for MARL? [27.037348104661497]
分散実行によるトレーニングは、協調的マルチエージェント強化学習のための一般的なフレームワークである。
マルチエージェント強化学習のためのCADP(Advising and Decentralized Pruning)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-27T03:15:24Z) - More Centralized Training, Still Decentralized Execution: Multi-Agent
Conditional Policy Factorization [21.10461189367695]
協調型マルチエージェント強化学習(MARL)では、値分解とアクター・クリティカルを組み合わせたエージェントがポリシーを学ぶことができる。
エージェントは、集中的な訓練であっても、互いに独立していると一般的に考えられている。
我々は、より集中的な訓練を施すが、それでも分散実行が可能なマルチエージェント条件付きポリシー因数分解(MACPF)を提案する。
論文 参考訳(メタデータ) (2022-09-26T13:29:22Z) - Finite-Time Consensus Learning for Decentralized Optimization with
Nonlinear Gossiping [77.53019031244908]
本稿では,非線形ゴシップ(NGO)に基づく分散学習フレームワークを提案する。
コミュニケーション遅延とランダム化チャットが学習にどう影響するかを解析することで,実践的なバリエーションの導出が可能となる。
論文 参考訳(メタデータ) (2021-11-04T15:36:25Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Cooperative Multi-Agent Actor-Critic for Privacy-Preserving Load
Scheduling in a Residential Microgrid [71.17179010567123]
本稿では,分散型アクターを分散批評家に教育する,プライバシ保護型マルチエージェントアクター批判フレームワークを提案する。
提案手法は,家庭のプライバシを保護しつつ,暗黙的にマルチエージェントの信用代入メカニズムを学習する。
論文 参考訳(メタデータ) (2021-10-06T14:05:26Z) - Periodic Stochastic Gradient Descent with Momentum for Decentralized
Training [114.36410688552579]
本稿では、モーメントスキーマと周期通信を併用した、分散学習のための新しい周期型モーメントSGD法を提案する。
提案した2つの手法の性能を検証するための広範囲な実験を行い、どちらも既存の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-08-24T13:38:22Z) - Learning Implicit Credit Assignment for Cooperative Multi-Agent
Reinforcement Learning [31.147638213056872]
本研究では,完全協調環境下でのクレジット代入問題に対して,暗黙的に対処することを目的としたマルチエージェントアクタ批判手法を提案する。
我々の主要な動機は、中央集権的批評家の政策勾配が、彼らの共同行動価値を最大化するために、中央集権的エージェントのための十分な情報を持っている限り、エージェント間の信用割当が明示的な定式化を必要としないことである。
LICAと呼ばれるこのアルゴリズムは、マルチエージェント粒子環境やStar IIマイクロマネジメントタスクなど、いくつかのベンチマークで評価されている。
論文 参考訳(メタデータ) (2020-07-06T05:25:02Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。