論文の概要: Policy Optimization for Linear-Quadratic Zero-Sum Mean-Field Type Games
- arxiv url: http://arxiv.org/abs/2009.02146v1
- Date: Wed, 2 Sep 2020 13:49:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 20:02:56.129314
- Title: Policy Optimization for Linear-Quadratic Zero-Sum Mean-Field Type Games
- Title(参考訳): リニア・クアドラティックゼロサム平均フィールド型ゲームに対するポリシー最適化
- Authors: Ren\'e Carmona and Kenza Hamidouche and Mathieu Lauri\`ere and Zongjun
Tan
- Abstract要約: 線形力学と二次効用を持つゼロサム平均場型ゲーム (ZSMFTG) について検討した。
政策勾配に依存する2つの政策最適化手法を提案する。
- 参考スコア(独自算出の注目度): 1.1852406625172216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, zero-sum mean-field type games (ZSMFTG) with linear dynamics
and quadratic utility are studied under infinite-horizon discounted utility
function. ZSMFTG are a class of games in which two decision makers whose
utilities sum to zero, compete to influence a large population of agents. In
particular, the case in which the transition and utility functions depend on
the state, the action of the controllers, and the mean of the state and the
actions, is investigated. The game is analyzed and explicit expressions for the
Nash equilibrium strategies are derived. Moreover, two policy optimization
methods that rely on policy gradient are proposed for both model-based and
sample-based frameworks. In the first case, the gradients are computed exactly
using the model whereas they are estimated using Monte-Carlo simulations in the
second case. Numerical experiments show the convergence of the two players'
controls as well as the utility function when the two algorithms are used in
different scenarios.
- Abstract(参考訳): 本稿では,線形力学と二次効用を持つゼロサム平均場型ゲーム(ZSMFTG)を,無限水平割引ユーティリティ関数の下で研究する。
ZSMFTG(ZSMFTG)は、ゼロに等しいユーティリティを持つ2人の意思決定者が多数のエージェントに影響を与えるゲームである。
特に、遷移関数と効用関数が状態、コントローラの動作、状態とアクションの平均に依存する場合について検討する。
ゲームは分析され、ナッシュ均衡戦略の明示的な表現が導出される。
さらに、モデルベースのフレームワークとサンプルベースのフレームワークの両方に対して、ポリシー勾配に依存する2つのポリシー最適化手法を提案する。
第1のケースでは勾配はモデルを用いて正確に計算され、第2のケースではモンテカルロシミュレーションを用いて推定される。
数値実験では、2つのプレイヤーの制御の収束と、2つのアルゴリズムが異なるシナリオで使用される際のユーティリティ関数が示される。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Neural Time-Reversed Generalized Riccati Equation [60.92253836775246]
ハミルトン方程式は、コストテートとして知られる補助変数を通して最適性の解釈を提供する。
本稿では,前向きに作業することを目的とした,新しいニューラルベースによる最適制御手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T19:29:37Z) - Dimensionless Policies based on the Buckingham $\pi$ Theorem: Is This a
Good Way to Generalize Numerical Results? [66.52698983694613]
本稿では,バッキンガムの$pi$定理を,物理系の制御ポリシを汎用的な知識形式にエンコードするツールとして活用する。
本研究では,(1) パラメータの削減,(2) 特定のシステムに対して数値的に生成された制御ポリシを,入力変数と出力変数を適切にスケーリングすることにより,次元的に類似したシステムのサブセットに正確に転送可能であることを示す。
より複雑な高次元問題に対するポリシーを一般化するために、このアプローチがいかに実用的であるかは、まだわからないが、初期の結果は、それがaであることを示している。
論文 参考訳(メタデータ) (2023-07-29T00:51:26Z) - HSVI can solve zero-sum Partially Observable Stochastic Games [7.293053431456775]
2-player 0-sum不完全なゲームを解くための最先端の手法は、線形プログラミングや動的後悔の最小化に依存している。
本稿では,線形プログラミングや反復的手法に依存した手法を補完する,有望なアプローチの新たなファミリーを提案する。
論文 参考訳(メタデータ) (2022-10-26T11:41:57Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Policy Gradient and Actor-Critic Learning in Continuous Time and Space:
Theory and Algorithms [1.776746672434207]
連続時間と空間における強化学習のための政策勾配(PG)について検討する。
本稿では,RLに対するアクタ批判アルゴリズムの2つのタイプを提案し,同時に値関数とポリシーを学習し,更新する。
論文 参考訳(メタデータ) (2021-11-22T14:27:04Z) - Provably Efficient Policy Gradient Methods for Two-Player Zero-Sum
Markov Games [95.70078702838654]
本論文では,自然政策グラディエントアルゴリズムの自然拡張について検討する。
我々は,サンプル数,反復数,集中係数,近似誤差の観点から,アルゴリズムの性能を徹底的に評価する。
論文 参考訳(メタデータ) (2021-02-17T17:49:57Z) - Linear-Quadratic Zero-Sum Mean-Field Type Games: Optimality Conditions
and Policy Optimization [1.1852406625172216]
線形力学と2次コストを持つゼロサム平均場型ゲーム (ZSMFTG) について検討した。
ユーティリティをゼロにする2つの意思決定者は、識別不能なエージェントの多数に影響を与えるために競います。
ゲームの最適条件は、オープンループ制御とクローズループ制御の両方に対して解析される。
論文 参考訳(メタデータ) (2020-09-01T17:08:24Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。