論文の概要: Reinforcement Learning in Linear Quadratic Deep Structured Teams: Global
Convergence of Policy Gradient Methods
- arxiv url: http://arxiv.org/abs/2011.14393v2
- Date: Tue, 15 Dec 2020 06:55:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 10:25:12.472393
- Title: Reinforcement Learning in Linear Quadratic Deep Structured Teams: Global
Convergence of Policy Gradient Methods
- Title(参考訳): 線形二次深部構造チームにおける強化学習:政策勾配法のグローバルコンバージェンス
- Authors: Vida Fathi, Jalal Arabneydi and Amir G. Aghdam
- Abstract要約: モデルベースおよびモデルフリー政策勾配勾配と自然政策勾配勾配アルゴリズムのグローバル収束性について検討する。
このようなシステムでは、エージェントをいくつかのサブポピュレーションに分割し、各サブポピュレーション内のエージェントを動的およびコスト関数で結合する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study the global convergence of model-based and model-free
policy gradient descent and natural policy gradient descent algorithms for
linear quadratic deep structured teams. In such systems, agents are partitioned
into a few sub-populations wherein the agents in each sub-population are
coupled in the dynamics and cost function through a set of linear regressions
of the states and actions of all agents. Every agent observes its local state
and the linear regressions of states, called deep states. For a sufficiently
small risk factor and/or sufficiently large population, we prove that
model-based policy gradient methods globally converge to the optimal solution.
Given an arbitrary number of agents, we develop model-free policy gradient and
natural policy gradient algorithms for the special case of risk-neutral cost
function. The proposed algorithms are scalable with respect to the number of
agents due to the fact that the dimension of their policy space is independent
of the number of agents in each sub-population. Simulations are provided to
verify the theoretical results.
- Abstract(参考訳): 本稿では,線形2次深層構造チームに対するモデルベースおよびモデルフリー政策勾配勾配と自然政策勾配勾配アルゴリズムのグローバル収束性について検討する。
このようなシステムでは、エージェントはいくつかのサブポピュレーションに分割され、各サブポピュレーション内のエージェントは、すべてのエージェントの状態とアクションの線形回帰によって、動的およびコスト関数に結合される。
すべてのエージェントはその局所状態とディープ状態と呼ばれる状態の線形回帰を観察する。
十分小さいリスクファクターおよび/または十分な人口に対して、モデルに基づく政策勾配法がグローバルに最適解に収束することを証明する。
任意の数のエージェントが与えられた場合、リスクニュートラルコスト関数の特別な場合に、モデルフリーポリシー勾配と自然ポリシー勾配アルゴリズムを開発する。
提案アルゴリズムは,各サブ人口におけるエージェント数に依存しないため,エージェント数に対してスケーラブルである。
理論結果を検証するためのシミュレーションが提供される。
関連論文リスト
- Full error analysis of policy gradient learning algorithms for exploratory linear quadratic mean-field control problem in continuous time with common noise [0.0]
政策勾配学習(PG)について検討し,まずモデルベース環境での収束を実証する。
モデルフリー環境では,2点勾配推定を用いたPGアルゴリズムの線形収束とサンプル複雑性を大域的に証明する。
この設定では、パラメータ化された最適ポリシーは、状態と人口分布のサンプルから学習される。
論文 参考訳(メタデータ) (2024-08-05T14:11:51Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Elementary Analysis of Policy Gradient Methods [3.468656086349638]
本稿では、割引MDPの設定に焦点をあて、前述の政策最適化手法の体系的研究を行う。
1)任意の一定のステップサイズに対する投影された方針勾配の大域的線形収束、2)任意の一定のステップサイズに対するソフトマックス方針勾配の大域的線形収束、3)任意の一定のステップサイズに対するソフトマックス自然政策勾配の大域的線形収束、4)既存の結果よりも広い一定のステップサイズに対するエントロピー正規化ソフトマックス方針勾配の大域的線形収束、5)エントロピー正規化自然政策勾配の厳密な局所的収束率、6)新しい局所的2次収束率。
論文 参考訳(メタデータ) (2024-04-04T11:16:16Z) - Score-Aware Policy-Gradient Methods and Performance Guarantees using Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks and Queueing Systems [1.747623282473278]
本稿では,ネットワーク上の決定過程(MDP)から得られる定常分布のタイプを利用したモデル強化学習(RL)のポリシー段階的手法を提案する。
具体的には、政策パラメータによってMDPの定常分布がパラメータ化されている場合、平均回帰推定のための既存の政策手法を改善することができる。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Dimension-Free Rates for Natural Policy Gradient in Multi-Agent
Reinforcement Learning [22.310861786709538]
協調型マルチエージェント強化学習のためのスケーラブルなアルゴリズムを提案する。
このアルゴリズムは,次元自由な統計量と計算量とで,グローバルな最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2021-09-23T23:38:15Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z) - When Will Generative Adversarial Imitation Learning Algorithms Attain
Global Convergence [56.40794592158596]
我々は,GAIL(Generative Adversarial mimicion Learning)を一般MDPおよび非線形報酬関数クラスで研究した。
これは世界収束のためのGAILに関する最初の体系的理論的研究である。
論文 参考訳(メタデータ) (2020-06-24T06:24:37Z) - Cooperative Multi-Agent Reinforcement Learning with Partial Observations [16.895704973433382]
マルチエージェント強化学習(MARL)のための分散ゼロ階ポリシー最適化手法を提案する。
エージェントは、グローバルに蓄積された報酬の局所的な見積もりを使用して、ローカルポリシー機能を更新するために必要なローカルポリシー勾配を計算することができる。
本研究では, 一定段差の分散ゼロ階次ポリシ最適化手法が, 大域的目的関数の定常点であるポリシの近傍に収束することを示す。
論文 参考訳(メタデータ) (2020-06-18T19:36:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。