Fugu-MT 論文翻訳(概要): Asynchronous Gradient Play in Zero-Sum Multi-agent Games

論文の概要: Asynchronous Gradient Play in Zero-Sum Multi-agent Games

arxiv url: http://arxiv.org/abs/2211.08980v1
Date: Wed, 16 Nov 2022 15:37:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-17 17:04:42.206870
Title: Asynchronous Gradient Play in Zero-Sum Multi-agent Games
Title（参考訳）: ゼロサムマルチエージェントゲームにおける非同期勾配プレイ
Authors: Ruicheng Ao, Shicong Cen, Yuejie Chi
Abstract要約: ゼロサムポリマトリクスゲームにおける遅延フィードバック下での非同期勾配プレイについて検討した。我々の知る限りでは、この研究はゼロサムポリマトリクスゲームにおける非同期勾配プレイを理解することを目的とした最初のものである。
参考スコア（独自算出の注目度）: 25.690033495071923
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Finding equilibria via gradient play in competitive multi-agent games has been attracting a growing amount of attention in recent years, with emphasis on designing efficient strategies where the agents operate in a decentralized and symmetric manner with guaranteed convergence. While significant efforts have been made in understanding zero-sum two-player matrix games, the performance in zero-sum multi-agent games remains inadequately explored, especially in the presence of delayed feedbacks, leaving the scalability and resiliency of gradient play open to questions. In this paper, we make progress by studying asynchronous gradient plays in zero-sum polymatrix games under delayed feedbacks. We first establish that the last iterate of entropy-regularized optimistic multiplicative weight updates (OMWU) method converges linearly to the quantal response equilibrium (QRE), the solution concept under bounded rationality, in the absence of delays. While the linear convergence continues to hold even when the feedbacks are randomly delayed under mild statistical assumptions, it converges at a noticeably slower rate due to a smaller tolerable range of learning rates. Moving beyond, we demonstrate entropy-regularized OMWU -- by adopting two-timescale learning rates in a delay-aware manner -- enjoys faster last-iterate convergence under fixed delays, and continues to converge provably even when the delays are arbitrarily bounded in an average-iterate manner. Our methods also lead to finite-time guarantees to approximate the Nash equilibrium (NE) by moderating the amount of regularization. To the best of our knowledge, this work is the first that aims to understand asynchronous gradient play in zero-sum polymatrix games under a wide range of delay assumptions, highlighting the role of learning rates separation.
Abstract（参考訳）: 近年、競合型マルチエージェントゲームにおける勾配遊びによる均衡の発見が注目を集めており、エージェントが収束を保証しながら分散的かつ対称的に行動する効率的な戦略の設計に重点が置かれている。ゼロサム2プレイヤーマトリクスゲームを理解するために多大な努力がなされてきたが、ゼロサムマルチエージェントゲームの性能は、特に遅延フィードバックの存在下では不十分であり、勾配のスケーラビリティとレジリエンスは疑問に残る。本稿では,ゼロサムポリマトリクスゲームにおける遅延フィードバック下での非同期勾配プレイについて検討する。まず, エントロピー正規化楽観的乗法重み更新 (omwu) 法の最終反復が, 有界合理性の下での解概念である量子応答平衡 (qre) に線形収束することを確認した。軽度な統計的仮定の下でランダムにフィードバックが遅れても線形収束は継続するが、許容範囲の学習率が低いため、明らかに遅い速度で収束する。さらに,2段階の学習速度を遅延認識方式で導入することにより,遅延が平均値に任意に拘束された場合でも,一定の遅延の下で最終値の収束速度が向上することを示す。また,本手法は正規化量の調整によりナッシュ平衡(NE)を近似する有限時間保証ももたらした。我々の知る限り、この研究はゼロサムポリマトリクスゲームにおいて、幅広い遅延仮定の下で非同期勾配プレイを理解することを目的としており、学習率分離の役割を強調している。

関連論文リスト

On Separation Between Best-Iterate, Random-Iterate, and Last-Iterate Convergence of Learning in Games [71.73971094342349]
ゲームにおける学習力学の非エルゴード収束は、理論と実践の両方において重要であるため、広く研究されている。近年の研究では、最適乗算重み更新を含む学習力学の幅広いクラスが、任意に遅い最終項目収束を示すことが示されている。 OMWUは、同じクラスのゲームにおいて、その遅い最終点収束とは対照的に、$O(T-1/6)$est-iterate convergence rateを達成することを示す。
論文参考訳（メタデータ） (2025-03-04T17:49:24Z)
The Power of Perturbation under Sampling in Solving Extensive-Form Games [56.013335390600524]
本稿では,不完全な情報形式ゲームにおいて,摂動がFTRL(Follow-the-Regularized-Leader)アルゴリズムをどのように改善するかを検討する。期待されるペイオフの摂動は、FTRL力学が近似平衡に達することを保証している。最後に、FTRLは非サンプリングFTRLよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2025-01-28T00:29:38Z)
Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文参考訳（メタデータ） (2024-02-19T03:08:02Z)
Learning in Zero-Sum Markov Games: Relaxing Strong Reachability and Mixing Time Assumptions [11.793922711718645]
無限水平ゼロサムマルコフゲームにおけるペイオフに基づく分散学習に対処する。この設定では、各プレイヤーは、相手の戦略や行動を観察したり情報を共有したりすることなく、受信した報酬のみに基づいて決定を行う。 Tsallisエントロピー正規化器によって誘導される値とポリシーの更新の新たな性質を確立することにより、近似ナッシュ平衡への有限時間収束を証明できる。
論文参考訳（メタデータ） (2023-12-13T09:31:30Z)
Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations [98.5802673062712]
我々は時間的に結合した摂動を導入し、既存の頑健な強化学習手法に挑戦する。本稿では、時間的に結合したロバストなRL問題を部分的に観測可能な2プレイヤーゼロサムゲームとして扱う新しいゲーム理論であるGRADを提案する。
論文参考訳（メタデータ） (2023-07-22T12:10:04Z)
On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文参考訳（メタデータ） (2023-01-26T17:25:45Z)
Faster Last-iterate Convergence of Policy Optimization in Zero-Sum Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文参考訳（メタデータ） (2022-10-03T16:05:43Z)
Fast Policy Extragradient Methods for Competitive Games with Entropy Regularization [40.21627891283402]
本稿では,競争ゲームの均衡の計算問題について考察する。エントロピー正則化のアルゴリズム的役割に動機付けられ、我々は証明可能な効率の良い指数関数法を開発した。
論文参考訳（メタデータ） (2021-05-31T17:51:15Z)
Linear Last-iterate Convergence in Constrained Saddle-point Optimization [48.44657553192801]
我々は、OGDA(Optimistic Gradient Descent Ascent)とOMWU(Optimistic Multiplicative Weights Update)に対する最終段階の独特さの理解を著しく拡大する。平衡が一意である場合、線形終端収束は、値が普遍定数に設定された学習速度で達成されることを示す。任意のポリトープ上の双線型ゲームがこの条件を満たすことを示し、OGDAは一意の平衡仮定なしで指数関数的に高速に収束することを示した。
論文参考訳（メタデータ） (2020-06-16T20:53:04Z)
Finite-Time Last-Iterate Convergence for Multi-Agent Learning in Games [116.0771177871705]
我々は,$lambda$-cocoerciveゲーム上での連立OGD学習における有限時間最終点収束率を特徴付ける。新たなダブルストッピング時間法により, この適応アルゴリズムは, 非適応的手法と同じ有限時間終点収束率が得られることを示す。
論文参考訳（メタデータ） (2020-02-23T01:46:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。