Fugu-MT 論文翻訳(概要): Provably Fast Convergence of Independent Natural Policy Gradient for Markov Potential Games

論文の概要: Provably Fast Convergence of Independent Natural Policy Gradient for Markov Potential Games

arxiv url: http://arxiv.org/abs/2310.09727v1
Date: Sun, 15 Oct 2023 04:10:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 01:56:14.815982
Title: Provably Fast Convergence of Independent Natural Policy Gradient for Markov Potential Games
Title（参考訳）: マルコフポテンシャルゲームにおける独立自然政策勾配の高速収束
Authors: Youbang Sun, Tao Liu, Ruida Zhou, P. R. Kumar, Shahin Shahrampour
Abstract要約: 本研究はマルコフポテンシャルゲームにおけるマルチエージェント強化学習問題に対する独立自然ポリシー勾配(NPG)アルゴリズムについて研究する。軽度の技術的仮定と準最適差の導入により,厳密なポリシを提供する託宣を持つ独立NPG法は,$mathcalO(1/epsilon)$イテレーション内に$epsilon$-Nash Equilibrium (NE)に達することが示されている。
参考スコア（独自算出の注目度）: 18.11805544026393
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work studies an independent natural policy gradient (NPG) algorithm for the multi-agent reinforcement learning problem in Markov potential games. It is shown that, under mild technical assumptions and the introduction of the suboptimality gap, the independent NPG method with an oracle providing exact policy evaluation asymptotically reaches an $\epsilon$-Nash Equilibrium (NE) within $\mathcal{O}(1/\epsilon)$ iterations. This improves upon the previous best result of $\mathcal{O}(1/\epsilon^2)$ iterations and is of the same order, $\mathcal{O}(1/\epsilon)$, that is achievable for the single-agent case. Empirical results for a synthetic potential game and a congestion game are presented to verify the theoretical bounds.
Abstract（参考訳）: 本研究はマルコフポテンシャルゲームにおけるマルチエージェント強化学習問題に対する独立自然ポリシー勾配(NPG)アルゴリズムの研究である。軽度の技術的仮定と準最適差の導入により, 厳密な政策評価を提供するオラクルを持つ独立NPG法は, $\mathcal{O}(1/\epsilon)$イテレーション内において, $\epsilon$-Nash Equilibrium (NE) に達することが示されている。これは$\mathcal{O}(1/\epsilon^2)$イテレーションの前の最良の結果を改善し、同じ順序である$\mathcal{O}(1/\epsilon)$で、これは単項の場合で達成可能である。合成ポテンシャルゲームと渋滞ゲームに対する実験結果を示し、理論的境界を検証した。

関連論文リスト

Approximating fixed size quantum correlations in polynomial time [8.099700053397278]
固定サイズの2プレーヤフリーゲームの最適値に対する$varepsilon$-additive近似が時間内に計算可能であることを示す。我々の主な結果は、制約付き量子分離性問題に適した新しいボース対称量子デフィネッティ定理に基づいている。
論文参考訳（メタデータ） (2025-07-16T15:01:45Z)
Nearly Optimal Sample Complexity of Offline KL-Regularized Contextual Bandits under Single-Policy Concentrability [49.96531901205305]
我々は,オフラインの文脈的包帯に対する単一政治中心性の下でのサンプル複雑性を$tildeO(epsilon-1)$とするemphfirstアルゴリズムを提案する。我々の証明は、KL正則化の強い凸性と、真の報酬と悲観的推定子のギャップの条件的非負性を利用する。我々は,このアルゴリズムを文脈的デュエル帯域に拡張し,ほぼ最適なサンプル複雑性を実現する。
論文参考訳（メタデータ） (2025-02-09T22:14:45Z)
Achieving $\ ilde{\mathcal{O}}(1/N)$ Optimality Gap in Restless Bandits through Gaussian Approximation [21.34216861973257]
有限水平Multiform Armed Bandit (RMAB) 問題を$N$等質アームを用いて検討する。我々のアプローチは、平均だけでなくRMAB力学の分散も捉えるガウス系の構築に基づいている。これは、RMABを退化させるための$tildemathcalO (1/N)$Optimity gapを確立する最初の結果である。
論文参考訳（メタデータ） (2024-10-19T06:29:18Z)
Accelerated Variance-Reduced Forward-Reflected Methods for Root-Finding Problems [8.0153031008486]
そこで本研究では,Nesterovの高速前方反射法と分散還元法を新たに提案し,根絶問題の解法を提案する。我々のアルゴリズムは単ループであり、ルートフィリング問題に特化して設計された非バイアス分散還元推定器の新たなファミリーを利用する。
論文参考訳（メタデータ） (2024-06-04T15:23:29Z)
Sample-Efficient Constrained Reinforcement Learning with General Parameterization [35.22742439337603]
エージェントの目標は、無限の地平線上で期待される割引報酬の和を最大化することである。我々は,世界最適性ギャップを$epsilon$で保証し,制約違反を$epsilon$で保証するPrimal-Dual Accelerated Natural Policy Gradient (PD-ANPG)アルゴリズムを開発した。
論文参考訳（メタデータ） (2024-05-17T08:39:05Z)
Provable Policy Gradient Methods for Average-Reward Markov Potential Games [15.136494705127564]
無限水平平均報酬基準の下でマルコフポテンシャルゲームを研究する。我々は、独立政策勾配と独立自然政策勾配に基づくアルゴリズムが、平均報酬基準に対するナッシュ均衡にグローバルに収束することを証明した。
論文参考訳（メタデータ） (2024-03-09T00:20:33Z)
Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback [75.29048190099523]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文参考訳（メタデータ） (2023-10-21T18:38:13Z)
Improving Sample Efficiency of Model-Free Algorithms for Zero-Sum Markov Games [66.2085181793014]
モデルフリーのステージベースQ-ラーニングアルゴリズムはモデルベースアルゴリズムと同じ$H$依存の最適性を享受できることを示す。本アルゴリズムは,楽観的値関数と悲観的値関数のペアとして参照値関数を更新するキーとなる新しい設計を特徴とする。
論文参考訳（メタデータ） (2023-08-17T08:34:58Z)
Global Nash Equilibrium in Non-convex Multi-player Game: Theory and Algorithms [66.8634598612777]
ナッシュ均衡(NE)はマルチプレイヤーゲームにおいて全てのプレイヤーに受け入れられることを示す。また、一般理論から一歩ずつ一方的に利益を得ることはできないことも示している。
論文参考訳（メタデータ） (2023-01-19T11:36:50Z)
Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文参考訳（メタデータ） (2022-08-22T17:24:55Z)
High Probability Bounds for a Class of Nonconvex Algorithms with AdaGrad Stepsize [55.0090961425708]
本研究では,AdaGradのスムーズな非確率問題に対する簡易な高確率解析法を提案する。我々はモジュラーな方法で解析を行い、決定論的設定において相補的な$mathcal O (1 / TT)$収束率を得る。我々の知る限りでは、これは真に適応的なスキームを持つAdaGradにとって初めての高い確率である。
論文参考訳（メタデータ） (2022-04-06T13:50:33Z)
Provably Efficient Convergence of Primal-Dual Actor-Critic with Nonlinear Function Approximation [15.319335698574932]
The first efficient convergence result with primal-dual actor-critic with a convergence of $mathcalOleft ascent(Nright)Nright)$ under Polyian sample。 Open GymAI連続制御タスクの結果。
論文参考訳（メタデータ） (2022-02-28T15:16:23Z)
Independent Policy Gradient for Large-Scale Markov Potential Games: Sharper Rates, Function Approximation, and Game-Agnostic Convergence [30.084357461497042]
状態空間と/またはプレイヤーの数が非常に大きいMPGのナッシュ均衡を学習する。我々は,すべてのプレイヤーがタンデムで実行する独立ポリシー勾配アルゴリズムを提案する。我々は、ゼロサムマルコフゲームとマルコフ協調ゲームの両方の収束性を楽しむ独立ポリシー勾配アルゴリズムのクラスを、ゲームの種類によらないプレイヤーと同定する。
論文参考訳（メタデータ） (2022-02-08T20:09:47Z)
A Sharp Analysis of Model-based Reinforcement Learning with Self-Play [49.88233710867315]
マルチエージェントマルコフゲームのためのモデルベースセルフプレイアルゴリズムのシャープな解析を行う。我々は,2プレイヤーゼロサムマルコフゲームのための最適化ナッシュ値イテレーション(Nash-VI)を設計する。我々はさらに、ゼロサムマルコフゲームに対する証明可能な効率的なタスク認識アルゴリズムの設計に我々の分析を適用した。
論文参考訳（メタデータ） (2020-10-04T15:27:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。