Fugu-MT 論文翻訳(概要): Partially Observable Multi-agent RL with (Quasi-)Efficiency: The Blessing of Information Sharing

論文の概要: Partially Observable Multi-agent RL with (Quasi-)Efficiency: The Blessing of Information Sharing

arxiv url: http://arxiv.org/abs/2308.08705v2
Date: Thu, 29 Feb 2024 04:25:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 18:52:44.501204
Title: Partially Observable Multi-agent RL with (Quasi-)Efficiency: The Blessing of Information Sharing
Title（参考訳）: Quasi-) 能率を持つ部分観測可能なマルチエージェントRL:情報共有の祝福
Authors: Xiangyu Liu, Kaiqing Zhang
Abstract要約: 部分的に観察可能なゲーム(POSG)の一般的な枠組みにおける証明可能なマルチエージェント強化学習(MARL)について検討する。我々は,エージェント間での情報共有の可能性,経験的MARLにおける一般的な実践,コミュニケーションを伴うマルチエージェント制御システムの標準モデルを活用することを提唱する。
参考スコア（独自算出の注目度）: 39.15744391171533
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study provable multi-agent reinforcement learning (MARL) in the general framework of partially observable stochastic games (POSGs). To circumvent the known hardness results and the use of computationally intractable oracles, we advocate leveraging the potential \emph{information-sharing} among agents, a common practice in empirical MARL, and a standard model for multi-agent control systems with communications. We first establish several computation complexity results to justify the necessity of information-sharing, as well as the observability assumption that has enabled quasi-efficient single-agent RL with partial observations, for computational efficiency in solving POSGs. We then propose to further \emph{approximate} the shared common information to construct an {approximate model} of the POSG, in which planning an approximate equilibrium (in terms of solving the original POSG) can be quasi-efficient, i.e., of quasi-polynomial-time, under the aforementioned assumptions. Furthermore, we develop a partially observable MARL algorithm that is both statistically and computationally quasi-efficient. We hope our study may open up the possibilities of leveraging and even designing different \emph{information structures}, for developing both sample- and computation-efficient partially observable MARL.
Abstract（参考訳）: 証明可能なマルチエージェント強化学習(MARL)を部分的に観察可能な確率ゲーム(POSG)の一般的な枠組みで研究する。既知の難易度結果と計算難解なオラクルの使用を回避するため,エージェント間でのemph{information-sharing}の可能性,実証的MARLにおける一般的な実践,コミュニケーションを伴うマルチエージェント制御システムの標準モデルを活用することを提唱する。まず、POSGを解く際の計算効率を高めるために、情報共有の必要性を正当化する計算複雑性結果と、部分的な観測で準効率のシングルエージェントRLを実現した観測可能性の仮定を確立する。次に、POSG の {approximate model} を構築するために共有共通情報を更に \emph{approximate} として提案し、上記の仮定の下で近似均衡(元の POSG の解法)を計画することは準効率、すなわち準多項式時間(quasi-polynomial-time)である。さらに,統計学的および計算学的に準効率な部分可観測marlアルゴリズムを開発した。我々は、サンプルと計算効率の良い部分観測可能なMARLの開発に、異なる 'emph{information structures} を活用、設計する可能性を開くことを願っている。

関連論文リスト

Approximate Global Convergence of Independent Learning in Multi-Agent Systems [19.958920582022664]
本稿では,Q$ラーニングとNatural Act-criticの2つの代表的なアルゴリズムについて,価値ベースのフレームワークとポリシーベースのフレームワークで検討する。結果は、大域収束を達成する際のILの基本的な限界を特徴づけるエラー項まで、$tildemathcalO(epsilon-2)$のサンプル複雑性を示唆している。
論文参考訳（メタデータ） (2024-05-30T08:20:34Z)
Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文参考訳（メタデータ） (2024-02-08T14:54:47Z)
Sample-Efficient Multi-Agent RL: An Optimization Perspective [103.35353196535544]
一般関数近似に基づく汎用マルコフゲーム(MG)のためのマルチエージェント強化学習(MARL)について検討した。汎用MGに対するマルチエージェントデカップリング係数(MADC)と呼ばれる新しい複雑性尺度を導入する。我々のアルゴリズムは既存の研究に匹敵するサブリニアな後悔を与えることを示す。
論文参考訳（メタデータ） (2023-10-10T01:39:04Z)
On the Complexity of Multi-Agent Decision Making: From Learning in Games to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文参考訳（メタデータ） (2023-05-01T06:46:22Z)
Factorization of Multi-Agent Sampling-Based Motion Planning [72.42734061131569]
現代のロボティクスは、共有環境内で複数のエンボディエージェントを動作させることが多い。標準的なサンプリングベースのアルゴリズムは、ロボットの関節空間における解の探索に使用できる。我々は、因子化の概念をサンプリングベースアルゴリズムに統合し、既存の手法への最小限の変更しか必要としない。本稿では, PRM* のサンプル複雑性の観点から解析的ゲインを導出し, RRG の実証結果を示す。
論文参考訳（メタデータ） (2023-04-01T15:50:18Z)
A General Framework for Sample-Efficient Function Approximation in Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-09-30T17:59:16Z)
Centralized Model and Exploration Policy for Multi-Agent RL [13.661446184763117]
部分的に観察可能な完全協調型マルチエージェント設定(Dec-POMDP)での強化学習は、現実世界の多くの課題に対処するために使用できる。 Dec-POMDPの現在のRLアルゴリズムは、サンプルの複雑さに悩まされている。モデルベースアルゴリズムであるMARCOを3つの協調通信タスクで提案し、サンプル効率を最大20倍改善する。
論文参考訳（メタデータ） (2021-07-14T00:34:08Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。