論文の概要: Nash Policy Gradient: A Policy Gradient Method with Iteratively Refined Regularization for Finding Nash Equilibria
- arxiv url: http://arxiv.org/abs/2510.18183v1
- Date: Tue, 21 Oct 2025 00:14:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.735661
- Title: Nash Policy Gradient: A Policy Gradient Method with Iteratively Refined Regularization for Finding Nash Equilibria
- Title(参考訳): ナッシュ・ポリシー・グラディエント:ナッシュ・平衡を求めるための反復精製規則化による政策グラディエント手法
- Authors: Eason Yu, Tzu Hao Liu, Yunke Wang, Clément L. Canonne, Nguyen H. Tran, Chang Xu,
- Abstract要約: 我々は,不完全情報ゲームにおけるナッシュ平衡を求めるための実用的なアルゴリズムを開発した。
ナッシュポリシーグラディエント (Nash Policy Gradient, NashPG) は、従来のベンチマークゲームにおけるモデルフリーメソッドと同等または低いエクスプロイト性を達成している。
- 参考スコア(独自算出の注目度): 27.756691720415798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finding Nash equilibria in imperfect-information games remains a central challenge in multi-agent reinforcement learning. While regularization-based methods have recently achieved last-iteration convergence to a regularized equilibrium, they require the regularization strength to shrink toward zero to approximate a Nash equilibrium, often leading to unstable learning in practice. Instead, we fix the regularization strength at a large value for robustness and achieve convergence by iteratively refining the reference policy. Our main theoretical result shows that this procedure guarantees strictly monotonic improvement and convergence to an exact Nash equilibrium in two-player zero-sum games, without requiring a uniqueness assumption. Building on this framework, we develop a practical algorithm, Nash Policy Gradient (NashPG), which preserves the generalizability of policy gradient methods while relying solely on the current and reference policies. Empirically, NashPG achieves comparable or lower exploitability than prior model-free methods on classic benchmark games and scales to large domains such as Battleship and No-Limit Texas Hold'em, where NashPG consistently attains higher Elo ratings.
- Abstract(参考訳): 不完全情報ゲームにおけるナッシュ均衡の発見は、マルチエージェント強化学習における中心的な課題である。
正規化に基づく手法は、最近、正則化平衡への最終着目収束を達成したが、ナッシュ平衡を近似するためには、正則化強度をゼロに縮める必要があり、実際は不安定な学習に繋がることが多い。
代わりに、ロバスト性のために大きな値で正規化強度を固定し、参照ポリシーを反復的に精錬することで収束を達成する。
本手法は,2プレイヤゼロサムゲームにおいて,一意性仮定を必要とせず,厳密な単調改善と正確なナッシュ均衡の収束を保証できることを示す。
この枠組みに基づいて,政策勾配法の一般化性を保ちつつ,現在および参照政策のみに依存した実践的アルゴリズムであるナッシュポリシーグラディエント (Nash Policy Gradient, NashPG) を開発した。
経験的に、NashPGは従来のベンチマークゲームにおけるモデルフリーの手法と同等または低いエクスプロイザビリティを実現し、BattleshipやNo-Limit Texas Hold'emのような大きなドメインにスケールする。
関連論文リスト
- Accuracy of Discretely Sampled Stochastic Policies in Continuous-time Reinforcement Learning [3.973277434105709]
我々は、個別の時点におけるポリシーからアクションをサンプリングするポリシー実行フレームワークを厳格に分析し、それらを断片的に一定の制御として実装する。
サンプリングメッシュのサイズがゼロになる傾向にあるため、制御された状態過程は、ポリシーに従って係数で動的に弱く収束する。
これらの結果に基づいて、離散時間観測に基づいて、様々な政策勾配推定器のバイアスとばらつきを分析した。
論文 参考訳(メタデータ) (2025-03-13T02:35:23Z) - COMAL: A Convergent Meta-Algorithm for Aligning LLMs with General Preferences [57.70902561665269]
本稿では,言語モデルアライメントのためのメタアルゴリズムである Convergent Meta Alignment Algorithm (COMAL) を提案する。
我々は, メタアルゴリズムが最終回において正確なナッシュポリシーに収束する理論解析を行い, 一連の合成および選好最適化データセット上での有効性を実証する。
論文 参考訳(メタデータ) (2024-10-30T17:13:02Z) - A Policy-Gradient Approach to Solving Imperfect-Information Games with Best-Iterate Convergence [21.195897792629548]
政策勾配法が自己プレイにおける正規化ナッシュ均衡に証明可能なベストイテレート収束をもたらすことを初めて示す。
論文 参考訳(メタデータ) (2024-08-01T17:54:01Z) - Learning in Zero-Sum Markov Games: Relaxing Strong Reachability and Mixing Time Assumptions [11.793922711718645]
無限水平ゼロサムマルコフゲームにおけるペイオフに基づく分散学習に対処する。
この設定では、各プレイヤーは、相手の戦略や行動を観察したり情報を共有したりすることなく、受信した報酬のみに基づいて決定を行う。
Tsallisエントロピー正規化器によって誘導される値とポリシーの更新の新たな性質を確立することにより、近似ナッシュ平衡への有限時間収束を証明できる。
論文 参考訳(メタデータ) (2023-12-13T09:31:30Z) - PAPAL: A Provable PArticle-based Primal-Dual ALgorithm for Mixed Nash Equilibrium [58.26573117273626]
2プレイヤゼロサム連続ゲームにおける非AL平衡非漸近目的関数について考察する。
連続分布戦略のための粒子ベースアルゴリズムに関する新しい知見を述べる。
論文 参考訳(メタデータ) (2023-03-02T05:08:15Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Learning Nash Equilibria in Zero-Sum Stochastic Games via
Entropy-Regularized Policy Approximation [18.35524179586723]
ゼロサムゲームにおけるナッシュ均衡学習の計算コストを削減するためのポリシー近似の利用について検討する。
我々は,Nashポリシーを近似するために,エントロピー規則化されたソフトポリシーのシーケンスを利用する新しいQ-ラーニング型アルゴリズムを提案する。
一定の条件下では、正規化されたQ-関数を更新することにより、アルゴリズムはナッシュ平衡に収束する。
論文 参考訳(メタデータ) (2020-09-01T01:03:44Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。