論文の概要: Partially Observable Multi-Agent Reinforcement Learning with Information Sharing
- arxiv url: http://arxiv.org/abs/2308.08705v3
- Date: Wed, 4 Sep 2024 16:44:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 04:56:30.547585
- Title: Partially Observable Multi-Agent Reinforcement Learning with Information Sharing
- Title(参考訳): 情報共有による部分観測可能なマルチエージェント強化学習
- Authors: Xiangyu Liu, Kaiqing Zhang,
- Abstract要約: 部分的に観察可能なゲーム(POSG)の一般的な枠組みにおける証明可能なマルチエージェント強化学習(RL)について検討する。
我々は,エージェント間での情報共有の可能性,経験的マルチエージェントRLにおける一般的な実践,コミュニケーションを伴うマルチエージェント制御システムの標準モデルを活用することを提唱する。
- 参考スコア(独自算出の注目度): 33.145861021414184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study provable multi-agent reinforcement learning (RL) in the general framework of partially observable stochastic games (POSGs). To circumvent the known hardness results and the use of computationally intractable oracles, we advocate leveraging the potential \emph{information-sharing} among agents, a common practice in empirical multi-agent RL, and a standard model for multi-agent control systems with communications. We first establish several computational complexity results to justify the necessity of information-sharing, as well as the observability assumption that has enabled quasi-efficient single-agent RL with partial observations, for efficiently solving POSGs. {Inspired by the inefficiency of planning in the ground-truth model,} we then propose to further \emph{approximate} the shared common information to construct an {approximate model} of the POSG, in which planning an approximate \emph{equilibrium} (in terms of solving the original POSG) can be quasi-efficient, i.e., of quasi-polynomial-time, under the aforementioned assumptions. Furthermore, we develop a partially observable multi-agent RL algorithm that is \emph{both} statistically and computationally quasi-efficient. {Finally, beyond equilibrium learning, we extend our algorithmic framework to finding the \emph{team-optimal solution} in cooperative POSGs, i.e., decentralized partially observable Markov decision processes, a much more challenging goal. We establish concrete computational and sample complexities under several common structural assumptions of the model.} We hope our study could open up the possibilities of leveraging and even designing different \emph{information structures}, a well-studied notion in control theory, for developing both sample- and computation-efficient partially observable multi-agent RL.
- Abstract(参考訳): 証明可能なマルチエージェント強化学習(RL)を部分的に観察可能な確率ゲーム(POSG)の一般的な枠組みで研究する。
既知の難易度結果と計算難解なオラクルの使用を回避するため,エージェント間でのemph{information-sharing}の可能性,実証的マルチエージェントRLにおける一般的な実践,コミュニケーションを伴うマルチエージェント制御システムの標準モデルを活用することを提唱する。
まず、POSGを効率的に解くために、情報共有の必要性を正当化するために、まずいくつかの計算複雑性結果と、半効率な単一エージェントRLを部分的な観測で実現した可観測性仮定を立証する。
ここでは、(元の POSG を解くという観点から)近似した 'emph{equilibrium} を計画することは、上記の仮定の下で準効率、すなわち準多項式時間(英語版)(quasi-polynomial-time)の準効率となるような、POSG の {approximate model} を構築するための共有共通情報をさらに共有することを提案する。
さらに,統計的かつ計算上準効率の高い部分観測可能なマルチエージェントRLアルゴリズムを開発した。
均衡学習を超えて、我々は、協調的なPOSG、すなわち分散化された部分的に観察可能なマルコフ決定プロセスにおいて、より困難な目標である「emph{team-optimal solution}」を見つけるアルゴリズムの枠組みを拡張した。
モデルに共通するいくつかの構造的仮定の下で、具体的な計算とサンプルの複雑さを確立する。
制御理論におけるよく研究されている概念である「emph{information structure}」を、サンプルと計算効率に優れた部分観測可能なマルチエージェントRLの開発に活用し、設計する可能性も、我々の研究が開けることを期待している。
関連論文リスト
- Approximate Global Convergence of Independent Learning in Multi-Agent Systems [19.958920582022664]
本稿では,Q$ラーニングとNatural Act-criticの2つの代表的なアルゴリズムについて,価値ベースのフレームワークとポリシーベースのフレームワークで検討する。
結果は、大域収束を達成する際のILの基本的な限界を特徴づけるエラー項まで、$tildemathcalO(epsilon-2)$のサンプル複雑性を示唆している。
論文 参考訳(メタデータ) (2024-05-30T08:20:34Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Sample-Efficient Multi-Agent RL: An Optimization Perspective [103.35353196535544]
一般関数近似に基づく汎用マルコフゲーム(MG)のためのマルチエージェント強化学習(MARL)について検討した。
汎用MGに対するマルチエージェントデカップリング係数(MADC)と呼ばれる新しい複雑性尺度を導入する。
我々のアルゴリズムは既存の研究に匹敵するサブリニアな後悔を与えることを示す。
論文 参考訳(メタデータ) (2023-10-10T01:39:04Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Factorization of Multi-Agent Sampling-Based Motion Planning [72.42734061131569]
現代のロボティクスは、共有環境内で複数のエンボディエージェントを動作させることが多い。
標準的なサンプリングベースのアルゴリズムは、ロボットの関節空間における解の探索に使用できる。
我々は、因子化の概念をサンプリングベースアルゴリズムに統合し、既存の手法への最小限の変更しか必要としない。
本稿では, PRM* のサンプル複雑性の観点から解析的ゲインを導出し, RRG の実証結果を示す。
論文 参考訳(メタデータ) (2023-04-01T15:50:18Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - Centralized Model and Exploration Policy for Multi-Agent RL [13.661446184763117]
部分的に観察可能な完全協調型マルチエージェント設定(Dec-POMDP)での強化学習は、現実世界の多くの課題に対処するために使用できる。
Dec-POMDPの現在のRLアルゴリズムは、サンプルの複雑さに悩まされている。
モデルベースアルゴリズムであるMARCOを3つの協調通信タスクで提案し、サンプル効率を最大20倍改善する。
論文 参考訳(メタデータ) (2021-07-14T00:34:08Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。