論文の概要: Policy Optimization for Continuous-time Linear-Quadratic Graphon Mean Field Games
- arxiv url: http://arxiv.org/abs/2506.05894v1
- Date: Fri, 06 Jun 2025 09:06:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.394634
- Title: Policy Optimization for Continuous-time Linear-Quadratic Graphon Mean Field Games
- Title(参考訳): 連続時間線形量子グラフ平均フィールドゲームに対するポリシー最適化
- Authors: Philipp Plank, Yufei Zhang,
- Abstract要約: グラフィオン(Graphon)とは、フィールドゲームがそのようなゲームを近似するための原則的なフレームワークを提供することを意味する。
本稿では,連続時間有限水平線形四元数GMFGに対するポリシー最適化フレームワークの提案と解析を行う。
- 参考スコア(独自算出の注目度): 3.1755820123640612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning, despite its popularity and empirical success, faces significant scalability challenges in large-population dynamic games. Graphon mean field games (GMFGs) offer a principled framework for approximating such games while capturing heterogeneity among players. In this paper, we propose and analyze a policy optimization framework for continuous-time, finite-horizon linear-quadratic GMFGs. Exploiting the structural properties of GMFGs, we design an efficient policy parameterization in which each player's policy is represented as an affine function of their private state, with a shared slope function and player-specific intercepts. We develop a bilevel optimization algorithm that alternates between policy gradient updates for best-response computation under a fixed population distribution, and distribution updates using the resulting policies. We prove linear convergence of the policy gradient steps to best-response policies and establish global convergence of the overall algorithm to the Nash equilibrium. The analysis relies on novel landscape characterizations over infinite-dimensional policy spaces. Numerical experiments demonstrate the convergence and robustness of the proposed algorithm under varying graphon structures, noise levels, and action frequencies.
- Abstract(参考訳): マルチエージェント強化学習は、その人気と経験的成功にもかかわらず、大きな人口動態ゲームにおいて大きなスケーラビリティの課題に直面している。
グラフィオン平均フィールドゲーム(GMFG)は、プレイヤー間の不均一性を捕捉しながら、そのようなゲームを近似するための原則的なフレームワークを提供する。
本稿では,連続時間有限水平線形四元数GMFGに対するポリシー最適化フレームワークの提案と解析を行う。
GMFGの構造特性を探索し,各選手の方針を,共有傾斜関数とプレーヤ固有のインターセプトを備えたプライベート状態のアフィン関数として表現する,効率的なポリシーパラメータ化を設計する。
そこで本研究では, 集団分布の最適応答計算におけるポリシー勾配更新と, 得られたポリシーを用いた分布更新を交互に行うバイレベル最適化アルゴリズムを開発した。
我々は、最善応答ポリシーに対する政策勾配ステップの線形収束を証明し、全体アルゴリズムのナッシュ均衡への大域収束を確立する。
この分析は、無限次元ポリシー空間上の新しい景観特性に依存している。
数値実験により,提案アルゴリズムの収束性とロバスト性について,様々なグラノン構造,ノイズレベル,動作周波数で検証した。
関連論文リスト
- Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Convergence of policy gradient methods for finite-horizon exploratory
linear-quadratic control problems [3.8661825615213012]
有限水平連続時間探索線形四元数制御(LQC)問題に対する政策勾配法(PG法)の大域的線形収束について検討する。
本稿では,離散時間ポリシーを持つ新しいPG法を提案する。このアルゴリズムは連続時間解析を活用し,動作周波数の異なる線形収束性を実現する。
論文 参考訳(メタデータ) (2022-11-01T17:31:41Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。