Fugu-MT 論文翻訳(概要): Learning in Zero-Sum Markov Games: Relaxing Strong Reachability and Mixing Time Assumptions

論文の概要: Learning in Zero-Sum Markov Games: Relaxing Strong Reachability and Mixing Time Assumptions

arxiv url: http://arxiv.org/abs/2312.08008v3
Date: Mon, 10 Feb 2025 12:55:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:48.337205
Title: Learning in Zero-Sum Markov Games: Relaxing Strong Reachability and Mixing Time Assumptions
Title（参考訳）: ゼロサムマルコフゲームにおける学習 - 強い到達性と混合時間推定を緩和する
Authors: Reda Ouhamma, Maryam Kamgarpour,
Abstract要約: 無限水平ゼロサムマルコフゲームにおけるペイオフに基づく分散学習に対処する。この設定では、各プレイヤーは、相手の戦略や行動を観察したり情報を共有したりすることなく、受信した報酬のみに基づいて決定を行う。 Tsallisエントロピー正規化器によって誘導される値とポリシーの更新の新たな性質を確立することにより、近似ナッシュ平衡への有限時間収束を証明できる。
参考スコア（独自算出の注目度）: 11.793922711718645
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We address payoff-based decentralized learning in infinite-horizon zero-sum Markov games. In this setting, each player makes decisions based solely on received rewards, without observing the opponent's strategy or actions nor sharing information. Prior works established finite-time convergence to an approximate Nash equilibrium under strong reachability and mixing time assumptions. We propose a convergent algorithm that significantly relaxes these assumptions, requiring only the existence of a single policy (not necessarily known) with bounded reachability and mixing time. Our key technical novelty is introducing Tsallis entropy regularization to smooth the best-response policy updates. By suitably tuning this regularization, we ensure sufficient exploration, thus bypassing previous stringent assumptions on the MDP. By establishing novel properties of the value and policy updates induced by the Tsallis entropy regularizer, we prove finite-time convergence to an approximate Nash equilibrium.
Abstract（参考訳）: 無限水平ゼロサムマルコフゲームにおけるペイオフに基づく分散学習に対処する。この設定では、各プレイヤーは、相手の戦略や行動を観察したり情報を共有したりすることなく、受信した報酬のみに基づいて決定を行う。先行研究は、強い到達性と混合時間仮定の下で、近似的なナッシュ平衡に有限時間収束を確立した。本稿では,これらの仮定を著しく緩和する収束アルゴリズムを提案し,有界到達性と混合時間を有する単一ポリシー(必ずしも知られていない)の存在を要求する。我々の重要な技術的ノベルティは、最良のレスポンスポリシー更新を円滑にするために、Tsallisエントロピー正規化を導入することです。この正規化を適切に調整することにより、十分な探索を保証し、MDPの以前の厳密な仮定を回避できる。 Tsallisエントロピー正規化器によって誘導される値とポリシーの更新の新たな性質を確立することにより、近似ナッシュ平衡への有限時間収束を証明できる。

関連論文リスト

Barriers to Welfare Maximization with No-Regret Learning [68.66209476382213]
我々は、ほぼ最適の$T$-sparse CCEの計算限界を低く証明する。特に,最大傾斜角の不適応性は,時間内に非自明な間隔を達成できないことを示す。
論文参考訳（メタデータ） (2024-11-04T00:34:56Z)
The equivalence of dynamic and strategic stability under regularized learning in games [33.74394172275373]
有限ゲームにおける正規化学習の長時間動作について検討する。戦略的安定性と動的安定性の等価性を得る。エントロピー正則化に基づく手法は幾何速度で収束することを示す。
論文参考訳（メタデータ） (2023-11-04T14:07:33Z)
Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations [98.5802673062712]
我々は時間的に結合した摂動を導入し、既存の頑健な強化学習手法に挑戦する。本稿では、時間的に結合したロバストなRL問題を部分的に観測可能な2プレイヤーゼロサムゲームとして扱う新しいゲーム理論であるGRADを提案する。
論文参考訳（メタデータ） (2023-07-22T12:10:04Z)
PAPAL: A Provable PArticle-based Primal-Dual ALgorithm for Mixed Nash Equilibrium [58.26573117273626]
2プレイヤゼロサム連続ゲームにおける非AL平衡非漸近目的関数について考察する。連続分布戦略のための粒子ベースアルゴリズムに関する新しい知見を述べる。
論文参考訳（メタデータ） (2023-03-02T05:08:15Z)
Asynchronous Gradient Play in Zero-Sum Multi-agent Games [25.690033495071923]
ゼロサムポリマトリクスゲームにおける遅延フィードバック下での非同期勾配プレイについて検討した。我々の知る限りでは、この研究はゼロサムポリマトリクスゲームにおける非同期勾配プレイを理解することを目的とした最初のものである。
論文参考訳（メタデータ） (2022-11-16T15:37:23Z)
Faster Last-iterate Convergence of Policy Optimization in Zero-Sum Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文参考訳（メタデータ） (2022-10-03T16:05:43Z)
Learning Two-Player Mixture Markov Games: Kernel Function Approximation and Correlated Equilibrium [157.0902680672422]
非線形関数近似を用いた2プレイヤーゼロサムマルコフゲームにおけるナッシュ平衡の学習について検討する。双対性ギャップを最小化してナッシュ均衡を求める新しいオンライン学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-08-10T14:21:54Z)
Regret Minimization and Convergence to Equilibria in General-sum Markov Games [57.568118148036376]
汎用マルコフゲームにおいて,全てのエージェントが実行した場合のサブ線形後悔保証を提供する学習アルゴリズムを初めて提示する。我々のアルゴリズムは分散化され、計算効率が良く、エージェント間の通信は不要である。
論文参考訳（メタデータ） (2022-07-28T16:27:59Z)
A unified stochastic approximation framework for learning in games [82.74514886461257]
ゲームにおける学習の長期的挙動(連続的・有限的)を解析するためのフレキシブルな近似フレームワークを開発する。提案する分析テンプレートには,勾配に基づく手法,有限ゲームでの学習のための指数的/乗算的重み付け,楽観的および帯域的変異など,幅広い一般的な学習アルゴリズムが組み込まれている。
論文参考訳（メタデータ） (2022-06-08T14:30:38Z)
Fast Policy Extragradient Methods for Competitive Games with Entropy Regularization [40.21627891283402]
本稿では,競争ゲームの均衡の計算問題について考察する。エントロピー正則化のアルゴリズム的役割に動機付けられ、我々は証明可能な効率の良い指数関数法を開発した。
論文参考訳（メタデータ） (2021-05-31T17:51:15Z)
Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games [78.65798135008419]
一般的なゲームでStackelberg平衡を効率的に学習する方法は、サンプルから非常にオープンなままです。本稿では,2プレーヤターンベース汎用ゲームにおけるStackelberg平衡のサンプル効率学習に関する理論的研究を開始する。
論文参考訳（メタデータ） (2021-02-23T05:11:07Z)
Last-iterate Convergence of Decentralized Optimistic Gradient Descent/Ascent in Infinite-horizon Competitive Markov Games [37.70703888365849]
無限水平割引2プレイヤーゼロサムマルコフゲームについて検討する。我々は,自己再生下でのナッシュ均衡に収束する分散アルゴリズムを開発した。
論文参考訳（メタデータ） (2021-02-08T21:45:56Z)
Survival of the strictest: Stable and unstable equilibria under regularized learning with partial information [32.384868685390906]
一般Nプレイヤーゲームにおける非回帰学習のナッシュ平衡収束特性について検討する。ナッシュ平衡の安定性と支持との包括的な等価性を確立します。ゲームにおける非学習の日々の行動を予測するための明確な洗練基準を提供する。
論文参考訳（メタデータ） (2021-01-12T18:55:11Z)
Learning from History for Byzantine Robust Optimization [52.68913869776858]
分散学習の重要性から,ビザンチンの堅牢性が近年注目されている。既存のロバストアグリゲーションルールの多くは、ビザンチンの攻撃者がいなくても収束しない可能性がある。
論文参考訳（メタデータ） (2020-12-18T16:22:32Z)
Learning Nash Equilibria in Zero-Sum Stochastic Games via Entropy-Regularized Policy Approximation [18.35524179586723]
ゼロサムゲームにおけるナッシュ均衡学習の計算コストを削減するためのポリシー近似の利用について検討する。我々は,Nashポリシーを近似するために,エントロピー規則化されたソフトポリシーのシーケンスを利用する新しいQ-ラーニング型アルゴリズムを提案する。一定の条件下では、正規化されたQ-関数を更新することにより、アルゴリズムはナッシュ平衡に収束する。
論文参考訳（メタデータ） (2020-09-01T01:03:44Z)
Learning Zero-Sum Simultaneous-Move Markov Games Using Function Approximation and Correlated Equilibrium [116.56359444619441]
両プレイヤーのゼロサム有限ホライゾンマルコフゲームに対する効率の良い強化学習アルゴリズムを開発した。オフライン環境では、両プレイヤーを制御し、双対性ギャップを最小化してナッシュ平衡を求める。オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。
論文参考訳（メタデータ） (2020-02-17T17:04:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。