論文の概要: Asymptotic Convergence of Deep Multi-Agent Actor-Critic Algorithms
- arxiv url: http://arxiv.org/abs/2201.00570v1
- Date: Mon, 3 Jan 2022 10:33:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 13:58:06.787474
- Title: Asymptotic Convergence of Deep Multi-Agent Actor-Critic Algorithms
- Title(参考訳): 深層マルチエージェントアクタ-クリティックアルゴリズムの漸近収束
- Authors: Adrian Redder, Arunselvan Ramaswamy, Holger Karl
- Abstract要約: 我々は,多エージェントDeep Deterministic Policy Gradient (DDPG)アルゴリズムの収束を保証する十分な条件を提案する。
これは、連続的なアクション空間を扱うためのDeep Reinforcement Learning(DeepRL)の最も人気のあるパラダイムの1つである。
- 参考スコア(独自算出の注目度): 0.6961253535504979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present sufficient conditions that ensure convergence of the multi-agent
Deep Deterministic Policy Gradient (DDPG) algorithm. It is an example of one of
the most popular paradigms of Deep Reinforcement Learning (DeepRL) for tackling
continuous action spaces: the actor-critic paradigm. In the setting considered
herein, each agent observes a part of the global state space in order to take
local actions, for which it receives local rewards. For every agent, DDPG
trains a local actor (policy) and a local critic (Q-function). The analysis
shows that multi-agent DDPG using neural networks to approximate the local
policies and critics converge to limits with the following properties: The
critic limits minimize the average squared Bellman loss; the actor limits
parameterize a policy that maximizes the local critic's approximation of
$Q_i^*$, where $i$ is the agent index. The averaging is with respect to a
probability distribution over the global state-action space. It captures the
asymptotics of all local training processes. Finally, we extend the analysis to
a fully decentralized setting where agents communicate over a wireless network
prone to delays and losses; a typical scenario in, e.g., robotic applications.
- Abstract(参考訳): 我々は,多エージェントDeep Deterministic Policy Gradient (DDPG)アルゴリズムの収束を保証する十分な条件を提案する。
これは、連続的なアクション空間を扱うためのDeep Reinforcement Learning(DeepRL)の最も人気のあるパラダイムの1つである。
ここで考慮される設定では、各エージェントは、ローカルなアクションを取るために、グローバルステートスペースの一部を観察し、ローカルな報酬を受け取る。
全てのエージェントに対して、DDPGは地元の俳優(政治)と地元の批評家(Q-function)を訓練する。
この分析によると、ニューラルネットワークを用いたマルチエージェントDDPGは、局所的なポリシーを近似し、批評家は以下の特性に制限を収束する。 批評家の制限は平均的な正方形ベルマン損失を最小化する; アクターの制限は、地元の批評家の近似を最大に$Q_i^*$で、$i$はエージェントインデックスである。
平均化は、大域的状態-作用空間上の確率分布に関するものである。
すべての局所的なトレーニングプロセスの漸近を捉えます。
最後に、分析を完全に分散化された設定に拡張し、エージェントが無線ネットワークを介して通信すると遅延や損失が発生しやすくなります。
関連論文リスト
- Networked Communication for Mean-Field Games with Function Approximation and Empirical Mean-Field Estimation [59.01527054553122]
分散エージェントは、経験的システムの単一かつ非エポゾディックな実行から平均フィールドゲームにおける平衡を学ぶことができる。
既存の設定に関数近似を導入し,Munchausen Online Mirror Descent 方式で描画する。
また, エージェントが局所的な周辺地域に基づいて, グローバルな経験分布を推定できる新しいアルゴリズムも提供する。
論文 参考訳(メタデータ) (2024-08-21T13:32:46Z) - Efficient Reinforcement Learning for Global Decision Making in the Presence of Local Agents at Scale [5.3526997662068085]
本研究では,地域エージェントの存在下でのグローバル意思決定のための強化学習について検討する。
この環境では、状態空間のサイズのため、スケーラビリティは長年にわたる課題でした。
この学習されたポリシーは、サブサンプリングエージェントの数が増加するにつれて、$tildeO (1/sqrtk+epsilon_k,m)$の順序で最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2024-03-01T01:49:57Z) - Distributed Optimization via Kernelized Multi-armed Bandits [6.04275169308491]
分散最適化問題を異種報酬設定によるマルチエージェントカーネル化されたマルチアームバンディット問題としてモデル化する。
我々は,カーネルの一般的なクラスに対して,サブ線形なリフレッシュバウンドを実現するために,完全に分散化されたアルゴリズムであるマルチエージェントIGP-UCB(MA-IGP-UCB)を提案する。
また,Multi-agent Delayed IGP-UCB (MAD-IGP-UCB)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-07T21:57:48Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Convergence Rates for Localized Actor-Critic in Networked Markov
Potential Games [12.704529528199062]
本稿では,ネットワーク内のノードにエージェントが関連付けられているネットワークマルコフポテンシャルゲームについて紹介する。
それぞれのエージェントは独自の潜在機能を持ち、各エージェントの報酬は、近隣のエージェントの状態と行動にのみ依存する。
これはエージェントの数に依存しないマルチエージェント競争ゲームに対する最初の有限サンプル境界である。
論文 参考訳(メタデータ) (2023-03-08T20:09:58Z) - Scalable Multi-Agent Reinforcement Learning with General Utilities [30.960413388976438]
汎用性を備えた拡張型マルチエージェント強化学習(MARL)について検討する。
目的は、チーム内の各エージェントの完全な可観測性なしに、チームのローカルユーティリティ関数の平均を最大化する、ローカライズされたポリシーを見つけることである。
これは、完全な可観測性を必要としない汎用性を持つマルチエージェントRLに関する文献の最初の結果である。
論文 参考訳(メタデータ) (2023-02-15T20:47:43Z) - Global Convergence of Localized Policy Iteration in Networked
Multi-Agent Reinforcement Learning [25.747559058350557]
エージェントが与えられたネットワーク上で相互作用するマルチエージェント強化学習(MARL)問題について検討する。
エージェントの目標は、エントロピー規則化された長期報酬の平均を協調的に最大化することである。
次元の呪いを克服し,コミュニケーションを減らすために,ローカル情報のみを用いて,グローバルに近い最適政策を確実に学習するローカルポリシーイテレーション(LPI)を提案する。
論文 参考訳(メタデータ) (2022-11-30T15:58:00Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - Distributed Q-Learning with State Tracking for Multi-agent Networked
Control [61.63442612938345]
本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。
エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。
論文 参考訳(メタデータ) (2020-12-22T22:03:49Z) - Single-Timescale Actor-Critic Provably Finds Globally Optimal Policy [122.01837436087516]
我々は、強化学習アルゴリズムの最も一般的なファミリーの一つであるアクター批判のグローバル収束とグローバル最適性について研究する。
線形関数近似を用いたシングルタイムスケールアクター批評家の収束率と大域的最適性を確立した。
論文 参考訳(メタデータ) (2020-08-02T14:01:49Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。