論文の概要: Entropy Regularization for Mean Field Games with Learning
- arxiv url: http://arxiv.org/abs/2010.00145v2
- Date: Wed, 8 Dec 2021 22:17:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 23:19:40.668950
- Title: Entropy Regularization for Mean Field Games with Learning
- Title(参考訳): 学習を伴う平均場ゲームにおけるエントロピー規則化
- Authors: Xin Guo, Renyuan Xu and Thaleia Zariphopoulou
- Abstract要約: 本稿では,平均場ゲーム(MFG)におけるエントロピー正則化が有限時間地平線学習に与える影響を解析する。
我々の研究は、エントロピー正則化が時間依存ポリシーをもたらすという理論的正当化を提供する。
このアルゴリズムでは、エージェントはゲーム平衡に安定かつ迅速に収束する最適な探索スケジューリングを学習することができる。
- 参考スコア(独自算出の注目度): 9.601419434933106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entropy regularization has been extensively adopted to improve the
efficiency, the stability, and the convergence of algorithms in reinforcement
learning. This paper analyzes both quantitatively and qualitatively the impact
of entropy regularization for Mean Field Game (MFG) with learning in a finite
time horizon. Our study provides a theoretical justification that entropy
regularization yields time-dependent policies and, furthermore, helps
stabilizing and accelerating convergence to the game equilibrium. In addition,
this study leads to a policy-gradient algorithm for exploration in MFG. Under
this algorithm, agents are able to learn the optimal exploration scheduling,
with stable and fast convergence to the game equilibrium.
- Abstract(参考訳): エントロピー正則化は強化学習におけるアルゴリズムの効率、安定性、収束性を改善するために広く採用されている。
本稿では,有限時間軸学習による平均場ゲーム(mfg)におけるエントロピー正則化の影響を定量的・定性的に解析する。
本研究はエントロピー正則化が時間依存的政策をもたらすという理論的正当性を提供し,さらにゲーム平衡への収束の安定化と加速に寄与する。
さらに,本研究はmfgにおける政策段階の探索アルゴリズムを導出する。
このアルゴリズムでは、エージェントはゲーム平衡に安定かつ迅速に収束する最適な探索スケジューリングを学習することができる。
関連論文リスト
- Entropy annealing for policy mirror descent in continuous time and space [2.8255028200738455]
本研究では、エントロピー規則化値関数の勾配に基づいてポリシーを更新する連続時間ポリシーミラー降下ダイナミクスを解析する。
固定エントロピーレベルでは、力学は正規化問題の最適解に指数関数的に収束する。
論文 参考訳(メタデータ) (2024-05-30T17:02:18Z) - Policy Optimization finds Nash Equilibrium in Regularized General-Sum LQ Games [5.268554895844062]
本稿では,ジェネラルサム$N$エージェントゲームのナッシュ平衡に対する相対エントロピー正規化の導入の影響について検討する。
ゲーム内のNEの特異性に対して、エントロピー正則化の妥当性に基づいて十分な条件を導出する。
エントロピー正規化が不十分なシナリオでは,ゲーム内での$epsilon$-NEの達成を促進する$delta$-augmentation手法を提案する。
論文 参考訳(メタデータ) (2024-03-25T04:45:28Z) - Stability and Generalization of Stochastic Compositional Gradient
Descent Algorithms [61.59448949684493]
学習例から構築した合成降下アルゴリズムの安定性と一般化解析について述べる。
SCGD と SCSC という2つの一般的な合成勾配勾配勾配アルゴリズムの均一安定性について検討した。
SCGD と SCSC の非依存的過剰リスク境界は,安定性結果と最適化誤差をトレードオフすることによって導出する。
論文 参考訳(メタデータ) (2023-07-07T02:40:09Z) - Stability-based Generalization Analysis for Mixtures of Pointwise and
Pairwise Learning [27.8712875561043]
ポイントワイド・ペアワイド・ラーニング(PPL)のいくつかのアルゴリズムは、「ポイントワイド・ロスとペアワイド・ロス」のハイブリッド・エラー・メトリックを用いて定式化されている。
本稿では,PPLの一般化特性を解明し,この理論的ギャップを埋めようとしている。
論文 参考訳(メタデータ) (2023-02-20T13:25:23Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - On the generalization of learning algorithms that do not converge [54.122745736433856]
ディープラーニングの一般化解析は、訓練が一定の点に収束すると仮定するのが一般的である。
最近の結果は、実際には勾配降下に最適化されたディープニューラルネットワークの重みは、しばしば無限に振動することを示している。
論文 参考訳(メタデータ) (2022-08-16T21:22:34Z) - A unified stochastic approximation framework for learning in games [82.74514886461257]
ゲームにおける学習の長期的挙動(連続的・有限的)を解析するためのフレキシブルな近似フレームワークを開発する。
提案する分析テンプレートには,勾配に基づく手法,有限ゲームでの学習のための指数的/乗算的重み付け,楽観的および帯域的変異など,幅広い一般的な学習アルゴリズムが組み込まれている。
論文 参考訳(メタデータ) (2022-06-08T14:30:38Z) - Entropy Regularized Reinforcement Learning Using Large Deviation Theory [3.058685580689605]
本稿では,エントロピー規則化RLのマッピングと非平衡統計力学の研究を行う。
大偏差理論からのアプローチを適用し、最適政策と最適力学の正確な解析結果を導出する。
その結果、エントロピー規則化RLの新たな解析および計算フレームワークが実現され、シミュレーションによって検証される。
論文 参考訳(メタデータ) (2021-06-07T19:42:06Z) - Fast Policy Extragradient Methods for Competitive Games with Entropy
Regularization [40.21627891283402]
本稿では,競争ゲームの均衡の計算問題について考察する。
エントロピー正則化のアルゴリズム的役割に動機付けられ、我々は証明可能な効率の良い指数関数法を開発した。
論文 参考訳(メタデータ) (2021-05-31T17:51:15Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z) - Optimization with Momentum: Dynamical, Control-Theoretic, and Symplectic
Perspectives [97.16266088683061]
この論文は、運動量に基づく最適化アルゴリズムにおいてシンプレクティックな離散化スキームが重要であることを厳格に証明している。
これは加速収束を示すアルゴリズムの特性を提供する。
論文 参考訳(メタデータ) (2020-02-28T00:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。