論文の概要: Convergence Rates of Average-Reward Multi-agent Reinforcement Learning
via Randomized Linear Programming
- arxiv url: http://arxiv.org/abs/2110.12929v1
- Date: Fri, 22 Oct 2021 03:48:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 05:10:49.695105
- Title: Convergence Rates of Average-Reward Multi-agent Reinforcement Learning
via Randomized Linear Programming
- Title(参考訳): ランダム化線形計画法による平均逆マルチエージェント強化学習の収束率
- Authors: Alec Koppel, Amrit Singh Bedi, Bhargav Ganguly, Vaneet Aggarwal
- Abstract要約: 我々は,グローバル報酬が地域報酬の総和であり,共同政策がエージェントの限界と州全体の可観測性に分解される場合に焦点を当てる。
エージェントが局所的なサドル点問題を解き、局所的な重み付き平均化を行うマルチエージェント拡張を開発する。
準グロブリー最適解を得るためのサンプルの複雑さは、状態空間と作用空間の濃度に対する厳密な依存と一致することを確かめる。
- 参考スコア(独自算出の注目度): 41.30044824711509
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In tabular multi-agent reinforcement learning with average-cost criterion, a
team of agents sequentially interacts with the environment and observes local
incentives. We focus on the case that the global reward is a sum of local
rewards, the joint policy factorizes into agents' marginals, and full state
observability. To date, few global optimality guarantees exist even for this
simple setting, as most results yield convergence to stationarity for
parameterized policies in large/possibly continuous spaces. To solidify the
foundations of MARL, we build upon linear programming (LP) reformulations, for
which stochastic primal-dual methods yields a model-free approach to achieve
\emph{optimal sample complexity} in the centralized case. We develop
multi-agent extensions, whereby agents solve their local saddle point problems
and then perform local weighted averaging. We establish that the sample
complexity to obtain near-globally optimal solutions matches tight dependencies
on the cardinality of the state and action spaces, and exhibits classical
scalings with respect to the network in accordance with multi-agent
optimization. Experiments corroborate these results in practice.
- Abstract(参考訳): 平均コスト基準を持つ表型マルチエージェント強化学習では、エージェントのチームが環境とシーケンシャルに相互作用し、局所的なインセンティブを観察します。
我々は,グローバル報酬が地域報酬の総和であり,共同政策がエージェントの限界と州全体の可観測性に分解される場合に焦点を当てる。
これまでのところ、この単純な設定であっても大域的最適性を保証することはほとんどなく、ほとんどの結果は、大かつ可能性的に連続な空間におけるパラメータ化されたポリシーに対する定常性に収束する。
marlの基礎を固めるために,線形計画法 (lp) を基礎とし, 確率的原始双対法が一元的な場合において emph{optimal sample complexity} を達成するためのモデルフリーなアプローチを導出する。
我々は,エージェントが局所的なサドルポイント問題を解き,局所的な重み付け平均化を行うマルチエージェント拡張を開発した。
準グローバル最適解を得るためのサンプル複雑性は、状態と作用空間の濃度の密接な依存性と一致し、マルチエージェント最適化に従ってネットワークに関する古典的スケーリングを示す。
実験は実際にこれらの結果を裏付ける。
関連論文リスト
- Distributed Optimization via Kernelized Multi-armed Bandits [6.04275169308491]
分散最適化問題を異種報酬設定によるマルチエージェントカーネル化されたマルチアームバンディット問題としてモデル化する。
我々は,カーネルの一般的なクラスに対して,サブ線形なリフレッシュバウンドを実現するために,完全に分散化されたアルゴリズムであるマルチエージェントIGP-UCB(MA-IGP-UCB)を提案する。
また,Multi-agent Delayed IGP-UCB (MAD-IGP-UCB)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-07T21:57:48Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Scalable Distributional Robustness in a Class of Non Convex Optimization
with Guarantees [7.541571634887807]
分散ロバスト最適化 (DRO) は, サンプルベース問題と同様に, 学習におけるロバスト性を示す。
実世界における課題を解くのに十分ではない混合整数クラスタリングプログラム (MISOCP) を提案する。
論文 参考訳(メタデータ) (2022-05-31T09:07:01Z) - On the Convergence of Heterogeneous Federated Learning with Arbitrary
Adaptive Online Model Pruning [15.300983585090794]
任意適応型オンラインモデルプルーニングを用いた異種FLアルゴリズムの一元化フレームワークを提案する。
特に、ある十分な条件下では、これらのアルゴリズムは一般的なスムーズなコスト関数に対して標準FLの定常点に収束する。
コンバージェンスに影響を与える2つの要因として,プルーニング誘導雑音と最小カバレッジ指数を照らす。
論文 参考訳(メタデータ) (2022-01-27T20:43:38Z) - Dimension-Free Rates for Natural Policy Gradient in Multi-Agent
Reinforcement Learning [22.310861786709538]
協調型マルチエージェント強化学習のためのスケーラブルなアルゴリズムを提案する。
このアルゴリズムは,次元自由な統計量と計算量とで,グローバルな最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2021-09-23T23:38:15Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。