論文の概要: Provably Efficient Multi-Agent Reinforcement Learning with Fully
Decentralized Communication
- arxiv url: http://arxiv.org/abs/2110.07392v1
- Date: Thu, 14 Oct 2021 14:27:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 15:27:35.216112
- Title: Provably Efficient Multi-Agent Reinforcement Learning with Fully
Decentralized Communication
- Title(参考訳): 完全分散通信による高能率マルチエージェント強化学習
- Authors: Justin Lidard, Udari Madhushani, Naomi Ehrich Leonard
- Abstract要約: 分散探索は強化学習におけるサンプリングの複雑さを低減する。
各エージェントが分散メッセージパスプロトコルを使用すると,グループ性能が大幅に向上することを示す。
グループ学習手法により多くのエージェントと情報共有を組み込むことで、最適ポリシーへの収束が加速することを示す。
- 参考スコア(独自算出の注目度): 3.5450828190071655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A challenge in reinforcement learning (RL) is minimizing the cost of sampling
associated with exploration. Distributed exploration reduces sampling
complexity in multi-agent RL (MARL). We investigate the benefits to performance
in MARL when exploration is fully decentralized. Specifically, we consider a
class of online, episodic, tabular $Q$-learning problems under time-varying
reward and transition dynamics, in which agents can communicate in a
decentralized manner.We show that group performance, as measured by the bound
on regret, can be significantly improved through communication when each agent
uses a decentralized message-passing protocol, even when limited to sending
information up to its $\gamma$-hop neighbors. We prove regret and sample
complexity bounds that depend on the number of agents, communication network
structure and $\gamma.$ We show that incorporating more agents and more
information sharing into the group learning scheme speeds up convergence to the
optimal policy. Numerical simulations illustrate our results and validate our
theoretical claims.
- Abstract(参考訳): 強化学習(RL)における課題は,探索に伴うサンプリングコストの最小化である。
分散探索はマルチエージェントRL(MARL)のサンプリング複雑性を低減する。
探検が完全に分散化されているMARLにおける性能の利点について検討する。
具体的には,オンライン,エピソディック,表形式の$q$学習問題を,エージェントが分散的にコミュニケーションできる時間変動報酬とトランジションダイナミクス(transition dynamics)下で考慮し,各エージェントが分散メッセージ・パッシング・プロトコルを使用する場合,その$\gamma$-hop近傍への情報送信に制限された場合でも,グループのパフォーマンスは,後悔のバウンドで測定されるように,コミュニケーションを通じて著しく向上することを示す。
我々は,エージェント数,通信ネットワーク構造,および$\gammaに依存する,後悔とサンプルの複雑性境界を証明する。
より多くのエージェントとより多くの情報共有をグループ学習方式に組み込むことで、最適なポリシーへの収束が加速することを示す。
数値シミュレーションは我々の結果を示し、理論的な主張を検証する。
関連論文リスト
- Compressed Federated Reinforcement Learning with a Generative Model [11.074080383657453]
強化学習は近年、前例のない人気を得たが、それでもサンプルの非効率さに悩まされている。
この課題に対処するため、フェデレーション強化学習(FedRL)が出現し、エージェントは局所的な推定を集約することで単一のポリシーを協調的に学習する。
通信効率のよいFedRL手法であるCompFedRLを提案する。
論文 参考訳(メタデータ) (2024-03-26T15:36:47Z) - Deep Multi-Agent Reinforcement Learning for Decentralized Active
Hypothesis Testing [11.639503711252663]
我々は,深層多エージェント強化学習の枠組みに根ざした新しいアルゴリズムを導入することで,マルチエージェント能動仮説テスト(AHT)問題に取り組む。
エージェントが協調戦略を学習し、性能を向上させる能力を効果的に示す実験結果を包括的に提示する。
論文 参考訳(メタデータ) (2023-09-14T01:18:04Z) - On the Performance of Gradient Tracking with Local Updates [10.14746251086461]
LU-GTは通信品質は同じであるが、任意のネットワークトポロジが可能であることを示す。
数値的な例では、局所的な更新は特定のレシエーションにおける通信コストを低下させる可能性がある。
論文 参考訳(メタデータ) (2022-10-10T15:13:23Z) - Multi-Agent Neural Rewriter for Vehicle Routing with Limited Disclosure
of Costs [65.23158435596518]
チームのマルコフゲームとして、部分的に観測可能なコストでマルチサイクルルーティング問題を解く。
我々のマルチエージェント強化学習アプローチである、いわゆるマルチエージェントニューラルリライタは、1エージェントニューラルリライタを利用して、反復的に書き換えるソリューションによって問題を解決する。
論文 参考訳(メタデータ) (2022-06-13T09:17:40Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Accelerating Distributed Online Meta-Learning via Multi-Agent
Collaboration under Limited Communication [24.647993999787992]
マルチエージェントオンラインメタラーニングフレームワークを提案し、同等の2レベルのネストオンライン凸最適化(OCO)問題としてキャストする。
エージェントタスク平均的後悔の上限を特徴づけることで、マルチエージェントオンラインメタラーニングの性能は、限られた通信によるメタモデル更新において、エージェントが分散ネットワークレベルのOCOからどれだけの恩恵を受けられるかに大きく依存していることを示す。
我々は、最適なシングルエージェント後悔$O(sqrtT)$上の$sqrt1/N$の速度アップの要因が$の後に示す。
論文 参考訳(メタデータ) (2020-12-15T23:08:36Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。