論文の概要: Centralized Model and Exploration Policy for Multi-Agent RL
- arxiv url: http://arxiv.org/abs/2107.06434v1
- Date: Wed, 14 Jul 2021 00:34:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 14:21:39.542043
- Title: Centralized Model and Exploration Policy for Multi-Agent RL
- Title(参考訳): マルチエージェントRLの集中モデルと探索政策
- Authors: Qizhen Zhang, Chris Lu, Animesh Garg, Jakob Foerster
- Abstract要約: 部分的に観察可能な完全協調型マルチエージェント設定(Dec-POMDP)での強化学習は、現実世界の多くの課題に対処するために使用できる。
Dec-POMDPの現在のRLアルゴリズムは、サンプルの複雑さに悩まされている。
モデルベースアルゴリズムであるMARCOを3つの協調通信タスクで提案し、サンプル効率を最大20倍改善する。
- 参考スコア(独自算出の注目度): 13.661446184763117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) in partially observable, fully cooperative
multi-agent settings (Dec-POMDPs) can in principle be used to address many
real-world challenges such as controlling a swarm of rescue robots or a
synchronous team of quadcopters. However, Dec-POMDPs are significantly harder
to solve than single-agent problems, with the former being NEXP-complete and
the latter, MDPs, being just P-complete. Hence, current RL algorithms for
Dec-POMDPs suffer from poor sample complexity, thereby reducing their
applicability to practical problems where environment interaction is costly.
Our key insight is that using just a polynomial number of samples, one can
learn a centralized model that generalizes across different policies. We can
then optimize the policy within the learned model instead of the true system,
reducing the number of environment interactions. We also learn a centralized
exploration policy within our model that learns to collect additional data in
state-action regions with high model uncertainty. Finally, we empirically
evaluate the proposed model-based algorithm, MARCO, in three cooperative
communication tasks, where it improves sample efficiency by up to 20x.
- Abstract(参考訳): 部分的に観測可能な完全協調型マルチエージェント設定(Dec-POMDP)での強化学習(RL)は、原則として、救助ロボットの群れやクワッドコプターの同期チームを制御するなど、現実の多くの課題に対処することができる。
しかし、dec-pomdpは単一エージェント問題よりも解決がかなり難しく、前者はnexp完全、後者はmdpsであり、単にp完全である。
したがって、現在のDec-POMDPのRLアルゴリズムはサンプルの複雑さに悩まされ、環境相互作用がコストがかかる現実的な問題への適用性が低下する。
我々の重要な洞察は、サンプルの多項式数だけで、異なるポリシーをまたいで一般化する集中モデルを学ぶことができるということである。
そして、実際のシステムではなく学習モデル内でポリシーを最適化し、環境相互作用の数を減らすことができる。
また、モデル内の集中的な探索方針を学習し、モデルの不確実性の高い状態対応領域における追加データ収集を学習する。
最後に,提案したモデルベースアルゴリズムであるMARCOを3つの協調通信タスクで実証的に評価し,サンプル効率を最大20倍改善する。
関連論文リスト
- Decentralized Transformers with Centralized Aggregation are Sample-Efficient Multi-Agent World Models [106.94827590977337]
本稿では,分散化された局所力学を拡張性のために学習するマルチエージェントRL(MARL)の新たな世界モデルを提案する。
また、集中表現アグリゲーションを可能にする効果的なソリューションとしてPerceiver Transformerを導入する。
Starcraft Multi-Agent Challenge (SMAC) の結果は、サンプル効率と全体的な性能の両方において、強力なモデルフリーアプローチと既存のモデルベース手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-22T12:40:03Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Learning RL-Policies for Joint Beamforming Without Exploration: A Batch
Constrained Off-Policy Approach [1.0080317855851213]
本稿では,ネットワークにおけるパラメータキャンセル最適化の問題点について考察する。
探索と学習のために実世界でアルゴリズムをデプロイすることは、探索せずにデータによって達成できることを示す。
論文 参考訳(メタデータ) (2023-10-12T18:36:36Z) - Pretty darn good control: when are approximate solutions better than
approximate models [0.0]
DRLアルゴリズムは,漁業における非線形3変数モデルにおける解の近似に成功していることを示す。
DRLで得られた政策は, 一定の死亡率の政策よりも収益性が高く, 持続性も高いことを示す。
論文 参考訳(メタデータ) (2023-08-25T19:58:17Z) - Partially Observable Multi-Agent Reinforcement Learning with Information Sharing [33.145861021414184]
部分的に観察可能なゲーム(POSG)の一般的な枠組みにおける証明可能なマルチエージェント強化学習(RL)について検討する。
我々は,エージェント間での情報共有の可能性,経験的マルチエージェントRLにおける一般的な実践,コミュニケーションを伴うマルチエージェント制御システムの標準モデルを活用することを提唱する。
論文 参考訳(メタデータ) (2023-08-16T23:42:03Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Monte-Carlo Search for an Equilibrium in Dec-POMDPs [11.726372393432195]
分散化された部分的に観測可能なマルコフ決定プロセス(Dec-POMDP)は、協調エージェントのグループに対する個々のコントローラの問題を形式化する。
ナッシュ均衡(各エージェント政策が、他のエージェントにとって最良の反応)を求めることは、よりアクセスしやすくなっている。
提案手法は,Dec-POMDPの生成モデル(シミュレータ)のみが利用可能である場合に適応可能であることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:47:46Z) - Factorization of Multi-Agent Sampling-Based Motion Planning [72.42734061131569]
現代のロボティクスは、共有環境内で複数のエンボディエージェントを動作させることが多い。
標準的なサンプリングベースのアルゴリズムは、ロボットの関節空間における解の探索に使用できる。
我々は、因子化の概念をサンプリングベースアルゴリズムに統合し、既存の手法への最小限の変更しか必要としない。
本稿では, PRM* のサンプル複雑性の観点から解析的ゲインを導出し, RRG の実証結果を示す。
論文 参考訳(メタデータ) (2023-04-01T15:50:18Z) - Fully Decentralized Model-based Policy Optimization for Networked
Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T23:52:14Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。