論文の概要: Policy Optimization finds Nash Equilibrium in Regularized General-Sum LQ Games
- arxiv url: http://arxiv.org/abs/2404.00045v2
- Date: Fri, 13 Sep 2024 16:59:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 23:27:08.090426
- Title: Policy Optimization finds Nash Equilibrium in Regularized General-Sum LQ Games
- Title(参考訳): 規則化された汎用LQゲームにおけるナッシュ平衡の政策最適化
- Authors: Muhammad Aneeq uz Zaman, Shubham Aggarwal, Melih Bastopcu, Tamer Başar,
- Abstract要約: 本稿では,ジェネラルサム$N$エージェントゲームのナッシュ平衡に対する相対エントロピー正規化の導入の影響について検討する。
ゲーム内のNEの特異性に対して、エントロピー正則化の妥当性に基づいて十分な条件を導出する。
エントロピー正規化が不十分なシナリオでは,ゲーム内での$epsilon$-NEの達成を促進する$delta$-augmentation手法を提案する。
- 参考スコア(独自算出の注目度): 5.268554895844062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the impact of introducing relative entropy regularization on the Nash Equilibria (NE) of General-Sum $N$-agent games, revealing the fact that the NE of such games conform to linear Gaussian policies. Moreover, it delineates sufficient conditions, contingent upon the adequacy of entropy regularization, for the uniqueness of the NE within the game. As Policy Optimization serves as a foundational approach for Reinforcement Learning (RL) techniques aimed at finding the NE, in this work we prove the linear convergence of a policy optimization algorithm which (subject to the adequacy of entropy regularization) is capable of provably attaining the NE. Furthermore, in scenarios where the entropy regularization proves insufficient, we present a $\delta$-augmentation technique, which facilitates the achievement of an $\epsilon$-NE within the game.
- Abstract(参考訳): 本稿では,ジェネラルサムのNash Equilibria(NE)に対する相対エントロピー正則化の導入による影響を考察し,そのようなゲームのNEが線形ガウスポリシーに適合していることを明らかにする。
さらに、ゲーム内のNEの特異性に対して、エントロピー正則化の妥当性に基づいて、十分な条件を規定する。
政策最適化は、NEの発見を目的とした強化学習(RL)技術の基礎的アプローチとして機能するので、この研究において、(エントロピー正則化の精度を前提として)NEを得ることができる政策最適化アルゴリズムの線形収束性を証明する。
さらに,エントロピー正規化が不十分なシナリオでは,ゲーム内での$\epsilon$-NEの達成を促進する$\delta$-augmentation手法を提案する。
関連論文リスト
- Entropy annealing for policy mirror descent in continuous time and space [2.8255028200738455]
本研究では、エントロピー規則化値関数の勾配に基づいてポリシーを更新する連続時間ポリシーミラー降下ダイナミクスを解析する。
固定エントロピーレベルでは、力学は正規化問題の最適解に指数関数的に収束する。
論文 参考訳(メタデータ) (2024-05-30T17:02:18Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Globally Convergent Policy Search over Dynamic Filters for Output
Estimation [64.90951294952094]
我々は,大域的に最適な$textitdynamic$ filterに収束する最初の直接ポリシー探索アルゴリズム凸を導入する。
我々は、情報化が前述の優越性を克服していることを示す。
論文 参考訳(メタデータ) (2022-02-23T18:06:20Z) - Regularization Guarantees Generalization in Bayesian Reinforcement
Learning through Algorithmic Stability [48.62272919754204]
ベイズ RL の一般化を、おそらくほぼ正しい (PAC) フレームワークで研究する。
我々の主な貢献は、正規化を加えることで、最適な政策が適切な意味で安定することを示しています。
論文 参考訳(メタデータ) (2021-09-24T07:48:34Z) - Fast Policy Extragradient Methods for Competitive Games with Entropy
Regularization [40.21627891283402]
本稿では,競争ゲームの均衡の計算問題について考察する。
エントロピー正則化のアルゴリズム的役割に動機付けられ、我々は証明可能な効率の良い指数関数法を開発した。
論文 参考訳(メタデータ) (2021-05-31T17:51:15Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Ensuring Monotonic Policy Improvement in Entropy-regularized Value-based
Reinforcement Learning [14.325835899564664]
Entropy-regularized value-based reinforcement learning methodは、ポリシー更新毎にポリシーの単調な改善を保証する。
本稿では,政策変動緩和のためのポリシー更新の度合いを調整するための基準として,この下界を利用した新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-25T04:09:18Z) - Fast Global Convergence of Natural Policy Gradient Methods with Entropy
Regularization [44.24881971917951]
自然政策勾配法(NPG)は、最も広く使われている政策最適化アルゴリズムの一つである。
我々は,ソフトマックスパラメータ化の下で,エントロピー規則化NPG法に対する収束保証を開発する。
この結果から, エントロピー正則化の役割を浮き彫りにした。
論文 参考訳(メタデータ) (2020-07-13T17:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。