論文の概要: Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time
- arxiv url: http://arxiv.org/abs/2008.06845v1
- Date: Sun, 16 Aug 2020 06:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 11:48:34.576273
- Title: Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time
- Title(参考訳): 線形量子平均場制御/ゲームにおける連続時間におけるポリシー勾配のグローバル収束
- Authors: Weichen Wang, Jiequn Han, Zhuoran Yang and Zhaoran Wang
- Abstract要約: 線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
- 参考スコア(独自算出の注目度): 109.06623773924737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning is a powerful tool to learn the optimal policy of
possibly multiple agents by interacting with the environment. As the number of
agents grow to be very large, the system can be approximated by a mean-field
problem. Therefore, it has motivated new research directions for mean-field
control (MFC) and mean-field game (MFG). In this paper, we study the policy
gradient method for the linear-quadratic mean-field control and game, where we
assume each agent has identical linear state transitions and quadratic cost
functions. While most of the recent works on policy gradient for MFC and MFG
are based on discrete-time models, we focus on the continuous-time models where
some analyzing techniques can be interesting to the readers. For both MFC and
MFG, we provide policy gradient update and show that it converges to the
optimal solution at a linear rate, which is verified by a synthetic simulation.
For MFG, we also provide sufficient conditions for the existence and uniqueness
of the Nash equilibrium.
- Abstract(参考訳): 強化学習は、環境と対話することで、潜在的に複数のエージェントの最適なポリシーを学ぶ強力なツールである。
エージェントの数が非常に大きくなるにつれて、システムは平均場問題によって近似することができる。
そのため、平均場制御(MFC)と平均場ゲーム(MFG)の新しい研究方向性を動機付けている。
本稿では,各エージェントが同一の線形状態遷移と二次コスト関数を持つと仮定した線形二次平均場制御とゲームに対するポリシー勾配法について検討する。
MFCとMFGの政策勾配に関する最近の研究の多くは離散時間モデルに基づいているが、我々はいくつかの分析技術が読者にとって興味深いような連続時間モデルに焦点を当てている。
MFC と MFG の双方に対して、政策勾配の更新を行い、線形速度で最適解に収束することを示し、合成シミュレーションにより検証した。
MFG に対しては、ナッシュ平衡の存在と特異性について十分な条件を提供する。
関連論文リスト
- Full error analysis of policy gradient learning algorithms for exploratory linear quadratic mean-field control problem in continuous time with common noise [0.0]
政策勾配学習(PG)について検討し,まずモデルベース環境での収束を実証する。
モデルフリー環境では,2点勾配推定を用いたPGアルゴリズムの線形収束とサンプル複雑性を大域的に証明する。
この設定では、パラメータ化された最適ポリシーは、状態と人口分布のサンプルから学習される。
論文 参考訳(メタデータ) (2024-08-05T14:11:51Z) - A Single Online Agent Can Efficiently Learn Mean Field Games [16.00164239349632]
平均場ゲーム (MFGs) は大規模人口システムの振る舞いをモデル化するための有望なフレームワークである。
本稿では,オンラインサンプルを用いてMFNEを学習できるオンライン単エージェントモデルフリー学習方式を提案する。
論文 参考訳(メタデータ) (2024-05-05T16:38:04Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Deep Reinforcement Learning for Infinite Horizon Mean Field Problems in Continuous Spaces [1.4999444543328293]
本稿では,平均場ゲーム(MFG)と平均場制御(MFC)問題を統一的に解くために,強化学習(RL)アルゴリズムを提案する。
提案手法は,パラメータ化スコア関数による平均場分布の表現とアクタ・クリティカル(AC)パラダイムを組み合わせて提案する。
アルゴリズムの修正により、混合平均場制御ゲーム(MFCG)を解くことができる。
論文 参考訳(メタデータ) (2023-09-19T22:37:47Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Regularization of the policy updates for stabilizing Mean Field Games [0.2348805691644085]
本研究は,非協調型マルチエージェント強化学習(MARL)の研究である。
複数のエージェントが同じ環境で相互作用し、個々のリターンを最大化するMARL。
提案アルゴリズムは,MF-PPO (Mean Field Proximal Policy Optimization) と命名し,OpenSpielフレームワークにおける提案手法の有効性を実証的に示す。
論文 参考訳(メタデータ) (2023-04-04T05:45:42Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Policy Gradient Methods for the Noisy Linear Quadratic Regulator over a
Finite Horizon [3.867363075280544]
線形2次レギュレータ(LQR)問題における最適ポリシーを見つけるための強化学習法について検討する。
我々は、有限時間地平線と弱い仮定の下での状態ダイナミクスの設定に対する大域的線形収束を保証する。
基礎となるダイナミクスのモデルを仮定し、データに直接メソッドを適用する場合の結果を示す。
論文 参考訳(メタデータ) (2020-11-20T09:51:49Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。