論文の概要: Linear-Quadratic Zero-Sum Mean-Field Type Games: Optimality Conditions
and Policy Optimization
- arxiv url: http://arxiv.org/abs/2009.00578v1
- Date: Tue, 1 Sep 2020 17:08:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 02:02:56.725944
- Title: Linear-Quadratic Zero-Sum Mean-Field Type Games: Optimality Conditions
and Policy Optimization
- Title(参考訳): リニア・クアドラティックゼロ・サム平均場型ゲーム:最適条件と政策最適化
- Authors: Ren\'e Carmona and Kenza Hamidouche and Mathieu Lauri\`ere and Zongjun
Tan
- Abstract要約: 線形力学と2次コストを持つゼロサム平均場型ゲーム (ZSMFTG) について検討した。
ユーティリティをゼロにする2つの意思決定者は、識別不能なエージェントの多数に影響を与えるために競います。
ゲームの最適条件は、オープンループ制御とクローズループ制御の両方に対して解析される。
- 参考スコア(独自算出の注目度): 1.1852406625172216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, zero-sum mean-field type games (ZSMFTG) with linear dynamics
and quadratic cost are studied under infinite-horizon discounted utility
function. ZSMFTG are a class of games in which two decision makers whose
utilities sum to zero, compete to influence a large population of
indistinguishable agents. In particular, the case in which the transition and
utility functions depend on the state, the action of the controllers, and the
mean of the state and the actions, is investigated. The optimality conditions
of the game are analysed for both open-loop and closed-loop controls, and
explicit expressions for the Nash equilibrium strategies are derived. Moreover,
two policy optimization methods that rely on policy gradient are proposed for
both model-based and sample-based frameworks. In the model-based case, the
gradients are computed exactly using the model, whereas they are estimated
using Monte-Carlo simulations in the sample-based case. Numerical experiments
are conducted to show the convergence of the utility function as well as the
two players' controls.
- Abstract(参考訳): 本稿では,ゼロサム平均場型ゲーム(ZSMFTG)の線形ダイナミクスと2次コストを無限水平割引ユーティリティ関数の下で検討する。
ZSMFTG(ZSMFTG)は、2つの意思決定者によるゲームの一種で、その効用はゼロに等しい。
特に、遷移関数と効用関数が状態、コントローラの動作、状態とアクションの平均に依存する場合について検討する。
ゲームの最適条件は開ループ制御と閉ループ制御の両方で分析され、ナッシュ均衡戦略の明示的な表現が導出される。
さらに、モデルベースのフレームワークとサンプルベースのフレームワークの両方に対して、ポリシー勾配に依存する2つのポリシー最適化手法を提案する。
モデルベースの場合、勾配はモデルを用いて正確に計算されるが、サンプルベースではモンテカルロシミュレーションを用いて推定される。
実用関数の収束と2人のプレイヤーの制御を示す数値実験を行った。
関連論文リスト
- Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - Model-Free Algorithm with Improved Sample Efficiency for Zero-Sum Markov
Games [71.0315408565146]
モデルフリーのステージベースQ-ラーニングアルゴリズムはモデルベースアルゴリズムと同じ$H$依存の最適性を享受できることを示す。
本アルゴリズムは,楽観的値関数と悲観的値関数のペアとして参照値関数を更新するキーとなる新しい設計を特徴とする。
論文 参考訳(メタデータ) (2023-08-17T08:34:58Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Adaptive LASSO estimation for functional hidden dynamic geostatistical
model [69.10717733870575]
関数型隠れ統計モデル(f-HD)のためのペナル化極大推定器(PMLE)に基づく新しいモデル選択アルゴリズムを提案する。
このアルゴリズムは反復最適化に基づいており、適応最小限の収縮・セレクタ演算子(GMSOLAS)ペナルティ関数を用いており、これは不給付のf-HD最大線量推定器によって得られる。
論文 参考訳(メタデータ) (2022-08-10T19:17:45Z) - Stochastic optimal well control in subsurface reservoirs using
reinforcement learning [0.0]
本稿では,パラメータの不確実性分布の最適制御を行うためのモデルフリー強化学習フレームワークのケーススタディを提案する。
原理的には、RLアルゴリズムは数値報酬信号の最大化のために最適な行動ポリシーを学習することができる。
提案手法は,2つの水面流動試験ケースに対して,2つの最先端RLアルゴリズム,PPO,A2Cを用いて数値計算を行った。
論文 参考訳(メタデータ) (2022-07-07T17:34:23Z) - Optimal control of robust team stochastic games [5.425935258756356]
そこで我々は,選手が頑健な最適化アプローチを用いて意思決定を行う「ロバスト」チームゲームのモデルを提案する。
ガウス・シーデル修正政策反復の形で学習アルゴリズムを開発し,その収束性を証明する。
アルゴリズムの有効性を示す数値シミュレーションがいくつか提案されている。
論文 参考訳(メタデータ) (2021-05-16T10:42:09Z) - Provably Efficient Policy Gradient Methods for Two-Player Zero-Sum
Markov Games [95.70078702838654]
本論文では,自然政策グラディエントアルゴリズムの自然拡張について検討する。
我々は,サンプル数,反復数,集中係数,近似誤差の観点から,アルゴリズムの性能を徹底的に評価する。
論文 参考訳(メタデータ) (2021-02-17T17:49:57Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Near Optimality of Finite Memory Feedback Policies in Partially Observed
Markov Decision Processes [0.0]
システム力学と測定チャネルモデルが知られていると仮定したPOMDPの計画問題について検討する。
軽度非線形フィルタ安定性条件下で近似的信念モデルに対する最適ポリシーを求める。
また、有限ウィンドウメモリサイズと近似誤差境界を関連づけた収束結果のレートを確立する。
論文 参考訳(メタデータ) (2020-10-15T00:37:51Z) - Policy Optimization for Linear-Quadratic Zero-Sum Mean-Field Type Games [1.1852406625172216]
線形力学と二次効用を持つゼロサム平均場型ゲーム (ZSMFTG) について検討した。
政策勾配に依存する2つの政策最適化手法を提案する。
論文 参考訳(メタデータ) (2020-09-02T13:49:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。