論文の概要: Approximately Solving Mean Field Games via Entropy-Regularized Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.01585v1
- Date: Tue, 2 Feb 2021 16:22:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 16:26:38.912214
- Title: Approximately Solving Mean Field Games via Entropy-Regularized Deep
Reinforcement Learning
- Title(参考訳): Entropy-Regularized Deep Reinforcement Learningによる平均フィールドゲームについて
- Authors: Kai Cui, Heinz Koeppl
- Abstract要約: 非コンスタントな不動点作用素を持つ離散時間有限 MFG は、既存のMFG の文献で典型的に仮定されるような縮約的でないことを示す。
我々は、既存の方法が失敗する近似的固定点への証明可能な収束を求め、近似的ナッシュ平衡の本来の目標に達する。
- 参考スコア(独自算出の注目度): 33.77849245250632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent mean field game (MFG) formalism facilitates otherwise intractable
computation of approximate Nash equilibria in many-agent settings. In this
paper, we consider discrete-time finite MFGs subject to finite-horizon
objectives. We show that all discrete-time finite MFGs with non-constant fixed
point operators fail to be contractive as typically assumed in existing MFG
literature, barring convergence via fixed point iteration. Instead, we
incorporate entropy-regularization and Boltzmann policies into the fixed point
iteration. As a result, we obtain provable convergence to approximate fixed
points where existing methods fail, and reach the original goal of approximate
Nash equilibria. All proposed methods are evaluated with respect to their
exploitability, on both instructive examples with tractable exact solutions and
high-dimensional problems where exact methods become intractable. In
high-dimensional scenarios, we apply established deep reinforcement learning
methods and empirically combine fictitious play with our approximations.
- Abstract(参考訳): 最近の平均場ゲーム(MFG)は、多くのエージェント設定で近似的なナッシュ平衡の難解な計算を容易にする。
本稿では,離散時間有限MFGを有限ホリゾン目標とする。
非コンスタントな不動点作用素を持つ離散時間有限 MFG は、既存のMFG の文献で通常仮定されるような縮約的でないことを示し、不動点反復による収束を抑える。
代わりに、エントロピー規則化とボルツマンポリシーを固定点反復に組み込む。
その結果,既存手法が故障する近似不動点に対する証明可能な収束が得られ,nash平衡近似の本来の目標に到達した。
提案手法はすべて, 操作可能な厳密解を用いた指導例と, 厳密解が難解な高次元問題の両方について評価されている。
高次元シナリオでは、確立された深層強化学習法を適用し、実演と近似を経験的に組み合わせる。
関連論文リスト
- Last Iterate Convergence in Monotone Mean Field Games [5.407319151576265]
Mean Field Game (MFG) は、多数のエージェントの振る舞いをモデル化し、近似するために使用されるフレームワークである。
本稿では,MFGの平衡を計算するために,単純な近点型アルゴリズムを提案する。
我々は、Lasry-Lions型単調性条件の下で、最初の最終点収束保証を提供する。
論文 参考訳(メタデータ) (2024-10-07T15:28:18Z) - A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。
本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文 参考訳(メタデータ) (2024-05-24T21:09:19Z) - Maximum Causal Entropy Inverse Reinforcement Learning for Mean-Field
Games [3.2228025627337864]
離散時間平均場ゲーム(MFG)におけるカジュアルエントロピー逆強化(IRL)問題について,無限水平ディスカウント・リワード最適性基準の下で紹介する。
本稿では,MFG問題を平均場平衡問題を計算可能な一般化ナッシュ平衡問題(GN)として定式化する。
この方法は、数値的な例のためのデータを生成するために用いられる。
論文 参考訳(メタデータ) (2024-01-12T13:22:03Z) - An Exponentially Converging Particle Method for the Mixed Nash
Equilibrium of Continuous Games [0.0]
我々は,2プレイヤーゼロサムゲームの混合ナッシュ平衡と,純戦略の連続的なセットと,ペイオフ関数への一次アクセスとの問題を考察する。
この問題は例えば、分散ロバスト学習のようなゲームにインスパイアされた機械学習アプリケーションで発生する。
本稿では,この問題に対する局所収束性を保証する粒子法の導入と解析を行う。
論文 参考訳(メタデータ) (2022-11-02T17:03:40Z) - A unified stochastic approximation framework for learning in games [82.74514886461257]
ゲームにおける学習の長期的挙動(連続的・有限的)を解析するためのフレキシブルな近似フレームワークを開発する。
提案する分析テンプレートには,勾配に基づく手法,有限ゲームでの学習のための指数的/乗算的重み付け,楽観的および帯域的変異など,幅広い一般的な学習アルゴリズムが組み込まれている。
論文 参考訳(メタデータ) (2022-06-08T14:30:38Z) - Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy Gradient Methods with Entropy Regularization [20.651913793555163]
古典的エントロピー正規化政策勾配法をソフトマックス政策パラメトリゼーションで再検討する。
提案したアルゴリズムに対して,大域的最適収束結果と$widetildemathcalO(frac1epsilon2)$のサンプル複雑性を確立する。
論文 参考訳(メタデータ) (2021-10-19T17:21:09Z) - Stochastic Gradient Descent-Ascent and Consensus Optimization for Smooth
Games: Convergence Analysis under Expected Co-coercivity [49.66890309455787]
本稿では,SGDA と SCO の最終的な収束保証として,期待されるコヒーレンシティ条件を導入し,その利点を説明する。
定常的なステップサイズを用いた場合、両手法の線形収束性を解の近傍に証明する。
我々の収束保証は任意のサンプリングパラダイムの下で保たれ、ミニバッチの複雑さに関する洞察を与える。
論文 参考訳(メタデータ) (2021-06-30T18:32:46Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z) - Tackling the Objective Inconsistency Problem in Heterogeneous Federated
Optimization [93.78811018928583]
本稿では、フェデレートされた異種最適化アルゴリズムの収束性を分析するためのフレームワークを提供する。
我々は,高速な誤差収束を保ちながら,客観的な矛盾を解消する正規化平均化手法であるFedNovaを提案する。
論文 参考訳(メタデータ) (2020-07-15T05:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。