論文の概要: Linear-Quadratic Zero-Sum Mean-Field Type Games: Optimality Conditions
and Policy Optimization
- arxiv url: http://arxiv.org/abs/2009.00578v1
- Date: Tue, 1 Sep 2020 17:08:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 02:02:56.725944
- Title: Linear-Quadratic Zero-Sum Mean-Field Type Games: Optimality Conditions
and Policy Optimization
- Title(参考訳): リニア・クアドラティックゼロ・サム平均場型ゲーム:最適条件と政策最適化
- Authors: Ren\'e Carmona and Kenza Hamidouche and Mathieu Lauri\`ere and Zongjun
Tan
- Abstract要約: 線形力学と2次コストを持つゼロサム平均場型ゲーム (ZSMFTG) について検討した。
ユーティリティをゼロにする2つの意思決定者は、識別不能なエージェントの多数に影響を与えるために競います。
ゲームの最適条件は、オープンループ制御とクローズループ制御の両方に対して解析される。
- 参考スコア(独自算出の注目度): 1.1852406625172216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, zero-sum mean-field type games (ZSMFTG) with linear dynamics
and quadratic cost are studied under infinite-horizon discounted utility
function. ZSMFTG are a class of games in which two decision makers whose
utilities sum to zero, compete to influence a large population of
indistinguishable agents. In particular, the case in which the transition and
utility functions depend on the state, the action of the controllers, and the
mean of the state and the actions, is investigated. The optimality conditions
of the game are analysed for both open-loop and closed-loop controls, and
explicit expressions for the Nash equilibrium strategies are derived. Moreover,
two policy optimization methods that rely on policy gradient are proposed for
both model-based and sample-based frameworks. In the model-based case, the
gradients are computed exactly using the model, whereas they are estimated
using Monte-Carlo simulations in the sample-based case. Numerical experiments
are conducted to show the convergence of the utility function as well as the
two players' controls.
- Abstract(参考訳): 本稿では,ゼロサム平均場型ゲーム(ZSMFTG)の線形ダイナミクスと2次コストを無限水平割引ユーティリティ関数の下で検討する。
ZSMFTG(ZSMFTG)は、2つの意思決定者によるゲームの一種で、その効用はゼロに等しい。
特に、遷移関数と効用関数が状態、コントローラの動作、状態とアクションの平均に依存する場合について検討する。
ゲームの最適条件は開ループ制御と閉ループ制御の両方で分析され、ナッシュ均衡戦略の明示的な表現が導出される。
さらに、モデルベースのフレームワークとサンプルベースのフレームワークの両方に対して、ポリシー勾配に依存する2つのポリシー最適化手法を提案する。
モデルベースの場合、勾配はモデルを用いて正確に計算されるが、サンプルベースではモンテカルロシミュレーションを用いて推定される。
実用関数の収束と2人のプレイヤーの制御を示す数値実験を行った。
関連論文リスト
- Stable Inverse Reinforcement Learning: Policies from Control Lyapunov Landscapes [4.229902091180109]
実験データからリアプノフ関数を学習するための新しい安定度認証IRL手法を提案する。
関連する制御ポリシーのクローズドフォーム表現を利用することで、CLFの空間を効率的に探索することができる。
我々は,CLFが提供する最適性に関する理論的解析を行い,シミュレーションデータと実世界データの両方を用いて我々のアプローチを評価する。
論文 参考訳(メタデータ) (2024-05-14T16:40:45Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Improving Sample Efficiency of Model-Free Algorithms for Zero-Sum Markov Games [66.2085181793014]
モデルフリーのステージベースQ-ラーニングアルゴリズムはモデルベースアルゴリズムと同じ$H$依存の最適性を享受できることを示す。
本アルゴリズムは,楽観的値関数と悲観的値関数のペアとして参照値関数を更新するキーとなる新しい設計を特徴とする。
論文 参考訳(メタデータ) (2023-08-17T08:34:58Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Adaptive LASSO estimation for functional hidden dynamic geostatistical
model [69.10717733870575]
関数型隠れ統計モデル(f-HD)のためのペナル化極大推定器(PMLE)に基づく新しいモデル選択アルゴリズムを提案する。
このアルゴリズムは反復最適化に基づいており、適応最小限の収縮・セレクタ演算子(GMSOLAS)ペナルティ関数を用いており、これは不給付のf-HD最大線量推定器によって得られる。
論文 参考訳(メタデータ) (2022-08-10T19:17:45Z) - Stochastic optimal well control in subsurface reservoirs using
reinforcement learning [0.0]
本稿では,パラメータの不確実性分布の最適制御を行うためのモデルフリー強化学習フレームワークのケーススタディを提案する。
原理的には、RLアルゴリズムは数値報酬信号の最大化のために最適な行動ポリシーを学習することができる。
提案手法は,2つの水面流動試験ケースに対して,2つの最先端RLアルゴリズム,PPO,A2Cを用いて数値計算を行った。
論文 参考訳(メタデータ) (2022-07-07T17:34:23Z) - Optimal control of robust team stochastic games [5.425935258756356]
そこで我々は,選手が頑健な最適化アプローチを用いて意思決定を行う「ロバスト」チームゲームのモデルを提案する。
ガウス・シーデル修正政策反復の形で学習アルゴリズムを開発し,その収束性を証明する。
アルゴリズムの有効性を示す数値シミュレーションがいくつか提案されている。
論文 参考訳(メタデータ) (2021-05-16T10:42:09Z) - Provably Efficient Policy Gradient Methods for Two-Player Zero-Sum
Markov Games [95.70078702838654]
本論文では,自然政策グラディエントアルゴリズムの自然拡張について検討する。
我々は,サンプル数,反復数,集中係数,近似誤差の観点から,アルゴリズムの性能を徹底的に評価する。
論文 参考訳(メタデータ) (2021-02-17T17:49:57Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Policy Optimization for Linear-Quadratic Zero-Sum Mean-Field Type Games [1.1852406625172216]
線形力学と二次効用を持つゼロサム平均場型ゲーム (ZSMFTG) について検討した。
政策勾配に依存する2つの政策最適化手法を提案する。
論文 参考訳(メタデータ) (2020-09-02T13:49:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。