Fugu-MT 論文翻訳(概要): Linear-Quadratic Zero-Sum Mean-Field Type Games: Optimality Conditions and Policy Optimization

論文の概要: Linear-Quadratic Zero-Sum Mean-Field Type Games: Optimality Conditions and Policy Optimization

arxiv url: http://arxiv.org/abs/2009.00578v1
Date: Tue, 1 Sep 2020 17:08:24 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-23 02:02:56.725944
Title: Linear-Quadratic Zero-Sum Mean-Field Type Games: Optimality Conditions and Policy Optimization
Title（参考訳）: リニア・クアドラティックゼロ・サム平均場型ゲーム:最適条件と政策最適化
Authors: Ren\'e Carmona and Kenza Hamidouche and Mathieu Lauri\`ere and Zongjun Tan
Abstract要約: 線形力学と2次コストを持つゼロサム平均場型ゲーム (ZSMFTG) について検討した。ユーティリティをゼロにする2つの意思決定者は、識別不能なエージェントの多数に影響を与えるために競います。ゲームの最適条件は、オープンループ制御とクローズループ制御の両方に対して解析される。
参考スコア（独自算出の注目度）: 1.1852406625172216
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, zero-sum mean-field type games (ZSMFTG) with linear dynamics and quadratic cost are studied under infinite-horizon discounted utility function. ZSMFTG are a class of games in which two decision makers whose utilities sum to zero, compete to influence a large population of indistinguishable agents. In particular, the case in which the transition and utility functions depend on the state, the action of the controllers, and the mean of the state and the actions, is investigated. The optimality conditions of the game are analysed for both open-loop and closed-loop controls, and explicit expressions for the Nash equilibrium strategies are derived. Moreover, two policy optimization methods that rely on policy gradient are proposed for both model-based and sample-based frameworks. In the model-based case, the gradients are computed exactly using the model, whereas they are estimated using Monte-Carlo simulations in the sample-based case. Numerical experiments are conducted to show the convergence of the utility function as well as the two players' controls.
Abstract（参考訳）: 本稿では,ゼロサム平均場型ゲーム(ZSMFTG)の線形ダイナミクスと2次コストを無限水平割引ユーティリティ関数の下で検討する。 ZSMFTG(ZSMFTG)は、2つの意思決定者によるゲームの一種で、その効用はゼロに等しい。特に、遷移関数と効用関数が状態、コントローラの動作、状態とアクションの平均に依存する場合について検討する。ゲームの最適条件は開ループ制御と閉ループ制御の両方で分析され、ナッシュ均衡戦略の明示的な表現が導出される。さらに、モデルベースのフレームワークとサンプルベースのフレームワークの両方に対して、ポリシー勾配に依存する2つのポリシー最適化手法を提案する。モデルベースの場合、勾配はモデルを用いて正確に計算されるが、サンプルベースではモンテカルロシミュレーションを用いて推定される。実用関数の収束と2人のプレイヤーの制御を示す数値実験を行った。

関連論文リスト

Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文参考訳（メタデータ） (2025-02-11T19:24:09Z)
Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Stable Inverse Reinforcement Learning: Policies from Control Lyapunov Landscapes [4.229902091180109]
実験データからリアプノフ関数を学習するための新しい安定度認証IRL手法を提案する。関連する制御ポリシーのクローズドフォーム表現を利用することで、CLFの空間を効率的に探索することができる。我々は,CLFが提供する最適性に関する理論的解析を行い,シミュレーションデータと実世界データの両方を用いて我々のアプローチを評価する。
論文参考訳（メタデータ） (2024-05-14T16:40:45Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Double Duality: Variational Primal-Dual Policy Optimization for Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文参考訳（メタデータ） (2024-02-16T16:35:18Z)
Improving Sample Efficiency of Model-Free Algorithms for Zero-Sum Markov Games [66.2085181793014]
モデルフリーのステージベースQ-ラーニングアルゴリズムはモデルベースアルゴリズムと同じ$H$依存の最適性を享受できることを示す。本アルゴリズムは,楽観的値関数と悲観的値関数のペアとして参照値関数を更新するキーとなる新しい設計を特徴とする。
論文参考訳（メタデータ） (2023-08-17T08:34:58Z)
$K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文参考訳（メタデータ） (2023-06-07T23:55:12Z)
Optimal Control of Nonlinear Systems with Unknown Dynamics [4.551160285910024]
本稿では,閉ループ最適制御器の探索のためのデータ駆動方式を提案する。任意の初期状態が与えられた未知の力学を持つ系に対する特定の無限水平コスト関数を最小化する。
論文参考訳（メタデータ） (2023-05-24T14:27:22Z)
Adaptive LASSO estimation for functional hidden dynamic geostatistical model [69.10717733870575]
関数型隠れ統計モデル(f-HD)のためのペナル化極大推定器(PMLE)に基づく新しいモデル選択アルゴリズムを提案する。このアルゴリズムは反復最適化に基づいており、適応最小限の収縮・セレクタ演算子(GMSOLAS)ペナルティ関数を用いており、これは不給付のf-HD最大線量推定器によって得られる。
論文参考訳（メタデータ） (2022-08-10T19:17:45Z)
Stochastic optimal well control in subsurface reservoirs using reinforcement learning [0.0]
本稿では,パラメータの不確実性分布の最適制御を行うためのモデルフリー強化学習フレームワークのケーススタディを提案する。原理的には、RLアルゴリズムは数値報酬信号の最大化のために最適な行動ポリシーを学習することができる。提案手法は,2つの水面流動試験ケースに対して,2つの最先端RLアルゴリズム,PPO,A2Cを用いて数値計算を行った。
論文参考訳（メタデータ） (2022-07-07T17:34:23Z)
Optimal control of robust team stochastic games [5.425935258756356]
そこで我々は,選手が頑健な最適化アプローチを用いて意思決定を行う「ロバスト」チームゲームのモデルを提案する。ガウス・シーデル修正政策反復の形で学習アルゴリズムを開発し,その収束性を証明する。アルゴリズムの有効性を示す数値シミュレーションがいくつか提案されている。
論文参考訳（メタデータ） (2021-05-16T10:42:09Z)
Provably Efficient Policy Gradient Methods for Two-Player Zero-Sum Markov Games [95.70078702838654]
本論文では,自然政策グラディエントアルゴリズムの自然拡張について検討する。我々は,サンプル数,反復数,集中係数,近似誤差の観点から,アルゴリズムの性能を徹底的に評価する。
論文参考訳（メタデータ） (2021-02-17T17:49:57Z)
Gaussian Process-based Min-norm Stabilizing Controller for Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文参考訳（メタデータ） (2020-11-14T01:27:32Z)
Policy Optimization for Linear-Quadratic Zero-Sum Mean-Field Type Games [1.1852406625172216]
線形力学と二次効用を持つゼロサム平均場型ゲーム (ZSMFTG) について検討した。政策勾配に依存する2つの政策最適化手法を提案する。
論文参考訳（メタデータ） (2020-09-02T13:49:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。