論文の概要: Reinforcement Learning in Non-Stationary Discrete-Time Linear-Quadratic
Mean-Field Games
- arxiv url: http://arxiv.org/abs/2009.04350v3
- Date: Thu, 1 Oct 2020 15:41:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 12:25:35.464031
- Title: Reinforcement Learning in Non-Stationary Discrete-Time Linear-Quadratic
Mean-Field Games
- Title(参考訳): 非定常離散時間線形量子平均場ゲームにおける強化学習
- Authors: Muhammad Aneeq uz Zaman, Kaiqing Zhang, Erik Miehling, and Tamer
Ba\c{s}ar
- Abstract要約: 離散時間線形四角形平均場ゲーム(LQ-MFG)の文脈における大集団多エージェント強化学習(RL)について検討する。
我々の設定は、無限の地平線上の非定常 MFG を考えるという点で、MFG に対するRL に関するほとんどの既存の研究とは異なる。
本稿では,LQ-MFGの平均場平衡(MFE)を反復的に計算するアクタ批判アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 14.209473797379667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study large population multi-agent reinforcement learning
(RL) in the context of discrete-time linear-quadratic mean-field games
(LQ-MFGs). Our setting differs from most existing work on RL for MFGs, in that
we consider a non-stationary MFG over an infinite horizon. We propose an
actor-critic algorithm to iteratively compute the mean-field equilibrium (MFE)
of the LQ-MFG. There are two primary challenges: i) the non-stationarity of the
MFG induces a linear-quadratic tracking problem, which requires solving a
backwards-in-time (non-causal) equation that cannot be solved by standard
(causal) RL algorithms; ii) Many RL algorithms assume that the states are
sampled from the stationary distribution of a Markov chain (MC), that is, the
chain is already mixed, an assumption that is not satisfied for real data
sources. We first identify that the mean-field trajectory follows linear
dynamics, allowing the problem to be reformulated as a linear quadratic
Gaussian problem. Under this reformulation, we propose an actor-critic
algorithm that allows samples to be drawn from an unmixed MC. Finite-sample
convergence guarantees for the algorithm are then provided. To characterize the
performance of our algorithm in multi-agent RL, we have developed an error
bound with respect to the Nash equilibrium of the finite-population game.
- Abstract(参考訳): 本稿では,大規模マルチエージェント強化学習(RL)を,離散時間線形四角形平均場ゲーム(LQ-MFG)の文脈で検討する。
我々の設定は、無限の地平線上の非定常 MFG を考えるという点で、MFG に対するRL に関するほとんどの既存の研究とは異なる。
本稿では,LQ-MFGの平均場平衡(MFE)を反復的に計算するアクタ批判アルゴリズムを提案する。
主な課題は2つあります
i) MFGの非定常性は、標準(因数)RLアルゴリズムでは解けない逆向き(非因数)方程式を解く必要がある線形二乗追跡問題を誘導する。
ii) 多くのrlアルゴリズムは、状態がマルコフ連鎖(mc)の定常分布からサンプリングされていると仮定している。
まず,平均場軌道が線形ダイナミクスに従うことを確認し,問題を線形二次ガウス問題として再定式化する。
そこで本研究では,非混合型mcからサンプルを抽出できるアクタ-クリティックアルゴリズムを提案する。
その後、アルゴリズムの有限サンプル収束保証が提供される。
マルチエージェントRLにおけるアルゴリズムの性能を特徴付けるため,有限ポピュレーションゲームのナッシュ平衡に関する誤差を開発した。
関連論文リスト
- Discrete Probabilistic Inference as Control in Multi-path Environments [84.67055173040107]
本稿では,離散分布と構造化分布からサンプリングする問題を逐次決定問題として考察する。
我々は,GFlowNetが,フローの保存を強制することによって,報酬に比例してオブジェクトをサンプリングするポリシーを学習していることを示す。
また、GFlowNetの文献で見られるフローマッチングの目的が、精度の高いMaxEnt RLアルゴリズムと等価であることも証明した。
論文 参考訳(メタデータ) (2024-02-15T20:20:35Z) - Maximum Causal Entropy Inverse Reinforcement Learning for Mean-Field
Games [3.2228025627337864]
離散時間平均場ゲーム(MFG)におけるカジュアルエントロピー逆強化(IRL)問題について,無限水平ディスカウント・リワード最適性基準の下で紹介する。
本稿では,MFG問題を平均場平衡問題を計算可能な一般化ナッシュ平衡問題(GN)として定式化する。
この方法は、数値的な例のためのデータを生成するために用いられる。
論文 参考訳(メタデータ) (2024-01-12T13:22:03Z) - Global Convergence of Online Identification for Mixed Linear Regression [1.9295130374196499]
混合線形回帰(MLR)は非線形関係を特徴づける強力なモデルである。
本稿では,MLRの2つの基本クラスにおけるオンライン識別とデータクラスタリングの問題について検討する。
期待最大化原理に基づく新しいオンライン識別アルゴリズムを2つ導入する。
論文 参考訳(メタデータ) (2023-11-30T12:30:42Z) - Deep Reinforcement Learning for Infinite Horizon Mean Field Problems in Continuous Spaces [1.4999444543328293]
本稿では,平均場ゲーム(MFG)と平均場制御(MFC)問題を統一的に解くために,強化学習(RL)アルゴリズムを提案する。
提案手法は,パラメータ化スコア関数による平均場分布の表現とアクタ・クリティカル(AC)パラダイムを組み合わせて提案する。
アルゴリズムの修正により、混合平均場制御ゲーム(MFCG)を解くことができる。
論文 参考訳(メタデータ) (2023-09-19T22:37:47Z) - Constrained Optimization via Exact Augmented Lagrangian and Randomized
Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。
ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-28T06:33:37Z) - PAPAL: A Provable PArticle-based Primal-Dual ALgorithm for Mixed Nash Equilibrium [58.26573117273626]
2プレイヤゼロサム連続ゲームにおける非AL平衡非漸近目的関数について考察する。
連続分布戦略のための粒子ベースアルゴリズムに関する新しい知見を述べる。
論文 参考訳(メタデータ) (2023-03-02T05:08:15Z) - Scalable Deep Reinforcement Learning Algorithms for Mean Field Games [60.550128966505625]
平均フィールドゲーム (MFGs) は、非常に多くの戦略エージェントを持つゲームを効率的に近似するために導入された。
近年,モデルフリー強化学習(RL)手法を用いて,MFGの学習均衡の課題が活発化している。
MFGを解くための既存のアルゴリズムは戦略や$q$-valuesのような近似量の混合を必要とする。
本稿では,この欠点に対処する2つの手法を提案する。まず,歴史データの蒸留からニューラルネットワークへの混合戦略を学習し,Factitious Playアルゴリズムに適用する。
2つ目はオンライン混合方式である。
論文 参考訳(メタデータ) (2022-03-22T18:10:32Z) - Covariance-Free Sparse Bayesian Learning [62.24008859844098]
共分散行列の明示的な反転を回避する新しいSBL推論アルゴリズムを導入する。
私たちの手法は、既存のベースラインよりも数千倍も高速です。
我々は,SBLが高次元信号回復問題に難なく対処できる新しいアルゴリズムについて紹介する。
論文 参考訳(メタデータ) (2021-05-21T16:20:07Z) - A spectral algorithm for robust regression with subgaussian rates [0.0]
本研究では, 試料の分布に強い仮定がない場合の線形回帰に対する2次時間に対する新しい線形アルゴリズムについて検討する。
目的は、データが有限モーメントしか持たなくても最適な準ガウス誤差を達成できる手順を設計することである。
論文 参考訳(メタデータ) (2020-07-12T19:33:50Z) - Unified Reinforcement Q-Learning for Mean Field Game and Control
Problems [0.0]
本稿では、無限水平平均場ゲーム(MFG)と平均場制御(MFC)問題を解決するために強化学習(RL)アルゴリズムを提案する。
このアルゴリズムは,2つの学習パラメータの比率を単純に調整することで,MFGとMFCのどちらでも学習することができる。
論文 参考訳(メタデータ) (2020-06-24T17:45:44Z) - Sparsified Linear Programming for Zero-Sum Equilibrium Finding [89.30539368124025]
我々は、この問題に対して全く異なるアプローチを示し、それは競争力があり、しばしば、以前の最先端技術よりも桁違いに優れている。
ポーカーエンドゲームの実験により、現代の線形プログラムソルバは、ゲーム固有のCFRの現代的な変種でさえも競合することを示した。
論文 参考訳(メタデータ) (2020-06-05T13:48:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。