論文の概要: Partially Observable Multi-Agent Reinforcement Learning with Information Sharing
- arxiv url: http://arxiv.org/abs/2308.08705v3
- Date: Wed, 4 Sep 2024 16:44:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 04:56:30.547585
- Title: Partially Observable Multi-Agent Reinforcement Learning with Information Sharing
- Title(参考訳): 情報共有による部分観測可能なマルチエージェント強化学習
- Authors: Xiangyu Liu, Kaiqing Zhang,
- Abstract要約: 部分的に観察可能なゲーム(POSG)の一般的な枠組みにおける証明可能なマルチエージェント強化学習(RL)について検討する。
我々は,エージェント間での情報共有の可能性,経験的マルチエージェントRLにおける一般的な実践,コミュニケーションを伴うマルチエージェント制御システムの標準モデルを活用することを提唱する。
- 参考スコア(独自算出の注目度): 33.145861021414184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study provable multi-agent reinforcement learning (RL) in the general framework of partially observable stochastic games (POSGs). To circumvent the known hardness results and the use of computationally intractable oracles, we advocate leveraging the potential \emph{information-sharing} among agents, a common practice in empirical multi-agent RL, and a standard model for multi-agent control systems with communications. We first establish several computational complexity results to justify the necessity of information-sharing, as well as the observability assumption that has enabled quasi-efficient single-agent RL with partial observations, for efficiently solving POSGs. {Inspired by the inefficiency of planning in the ground-truth model,} we then propose to further \emph{approximate} the shared common information to construct an {approximate model} of the POSG, in which planning an approximate \emph{equilibrium} (in terms of solving the original POSG) can be quasi-efficient, i.e., of quasi-polynomial-time, under the aforementioned assumptions. Furthermore, we develop a partially observable multi-agent RL algorithm that is \emph{both} statistically and computationally quasi-efficient. {Finally, beyond equilibrium learning, we extend our algorithmic framework to finding the \emph{team-optimal solution} in cooperative POSGs, i.e., decentralized partially observable Markov decision processes, a much more challenging goal. We establish concrete computational and sample complexities under several common structural assumptions of the model.} We hope our study could open up the possibilities of leveraging and even designing different \emph{information structures}, a well-studied notion in control theory, for developing both sample- and computation-efficient partially observable multi-agent RL.
- Abstract(参考訳): 証明可能なマルチエージェント強化学習(RL)を部分的に観察可能な確率ゲーム(POSG)の一般的な枠組みで研究する。
既知の難易度結果と計算難解なオラクルの使用を回避するため,エージェント間でのemph{information-sharing}の可能性,実証的マルチエージェントRLにおける一般的な実践,コミュニケーションを伴うマルチエージェント制御システムの標準モデルを活用することを提唱する。
まず、POSGを効率的に解くために、情報共有の必要性を正当化するために、まずいくつかの計算複雑性結果と、半効率な単一エージェントRLを部分的な観測で実現した可観測性仮定を立証する。
ここでは、(元の POSG を解くという観点から)近似した 'emph{equilibrium} を計画することは、上記の仮定の下で準効率、すなわち準多項式時間(英語版)(quasi-polynomial-time)の準効率となるような、POSG の {approximate model} を構築するための共有共通情報をさらに共有することを提案する。
さらに,統計的かつ計算上準効率の高い部分観測可能なマルチエージェントRLアルゴリズムを開発した。
均衡学習を超えて、我々は、協調的なPOSG、すなわち分散化された部分的に観察可能なマルコフ決定プロセスにおいて、より困難な目標である「emph{team-optimal solution}」を見つけるアルゴリズムの枠組みを拡張した。
モデルに共通するいくつかの構造的仮定の下で、具体的な計算とサンプルの複雑さを確立する。
制御理論におけるよく研究されている概念である「emph{information structure}」を、サンプルと計算効率に優れた部分観測可能なマルチエージェントRLの開発に活用し、設計する可能性も、我々の研究が開けることを期待している。
関連論文リスト
- Near-Optimal Learning and Planning in Separated Latent MDPs [70.88315649628251]
我々は、潜在マルコフ決定過程(LMDP)の計算的および統計的側面について研究する。
このモデルでは、学習者は、未知のMDPの混合から各エポックの開始時に描画されたMDPと相互作用する。
論文 参考訳(メタデータ) (2024-06-12T06:41:47Z) - Collaborative Learning with Different Labeling Functions [7.228285747845779]
我々は、$n$のデータ分布ごとに正確な分類器を学習することを目的とした、協調型PAC学習の亜種について研究する。
データ分布がより弱い実現可能性の仮定を満たす場合、サンプル効率の学習は依然として可能であることを示す。
論文 参考訳(メタデータ) (2024-02-16T04:32:22Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Distributed Learning of Mixtures of Experts [0.0]
私たちは、自然に分散されたデータセットや、計算を分散する潜在的に大きなデータセットを扱います。
本研究では,データ分散サブセットに並列に適合する局所的推定器から還元推定器を構築するために,専門家(MoE)モデルとアグリゲーション戦略を併用した分散学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:26:13Z) - Sample-Efficient Multi-Agent RL: An Optimization Perspective [103.35353196535544]
一般関数近似に基づく汎用マルコフゲーム(MG)のためのマルチエージェント強化学習(MARL)について検討した。
汎用MGに対するマルチエージェントデカップリング係数(MADC)と呼ばれる新しい複雑性尺度を導入する。
我々のアルゴリズムは既存の研究に匹敵するサブリニアな後悔を与えることを示す。
論文 参考訳(メタデータ) (2023-10-10T01:39:04Z) - Max-Sliced Mutual Information [17.667315953598788]
高次元の確率変数間の依存性の定量化は、統計的学習と推論の中心である。
2つの古典的手法は正準相関解析 (CCA) であり、これは元の変数の最大相関型を識別するものであり、シャノンの相互情報は普遍的依存度である。
本研究は、最大スライシング相互情報(mSMI)と呼ばれるCCAのスケーラブルな情報理論の一般化という形で中間層を提案する。
論文 参考訳(メタデータ) (2023-09-28T06:49:25Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Information State Embedding in Partially Observable Cooperative
Multi-Agent Reinforcement Learning [19.617644643147948]
エージェントの履歴を圧縮する情報状態埋め込みの概念を導入する。
圧縮誤差が分散制御における結果値関数にどのように影響するかを定量化する。
提案された組込み学習パイプラインは、既存の(部分的に観測可能な)MARLアルゴリズムのブラックボックスを開く。
論文 参考訳(メタデータ) (2020-04-02T16:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。