Fugu-MT 論文翻訳(概要): Efficient Last-iterate Convergence Algorithms in Solving Games

論文の概要: Efficient Last-iterate Convergence Algorithms in Solving Games

arxiv url: http://arxiv.org/abs/2308.11256v1
Date: Tue, 22 Aug 2023 07:59:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-23 18:39:41.258801
Title: Efficient Last-iterate Convergence Algorithms in Solving Games
Title（参考訳）: ゲーム解法における高能率ラストイテレート収束アルゴリズム
Authors: Linjian Meng, Zhenxing Ge, Wenbin Li, Bo An, Yang Gao
Abstract要約: 非回帰アルゴリズムは、2プレイヤゼロサム正規形式ゲーム(NFG)およびワイドフォームゲーム(EFG)におけるナッシュ均衡の学習に人気がある。近年,MWU に対するリワード変換 (RT) フレームワークが提案されている。 RTアルゴリズムのボトルネックは凸凹最適化問題(SCCP)の解法であることを示す。
参考スコア（独自算出の注目度）: 20.00785679098103
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: No-regret algorithms are popular for learning Nash equilibrium (NE) in two-player zero-sum normal-form games (NFGs) and extensive-form games (EFGs). Many recent works consider the last-iterate convergence no-regret algorithms. Among them, the two most famous algorithms are Optimistic Gradient Descent Ascent (OGDA) and Optimistic Multiplicative Weight Update (OMWU). However, OGDA has high per-iteration complexity. OMWU exhibits a lower per-iteration complexity but poorer empirical performance, and its convergence holds only when NE is unique. Recent works propose a Reward Transformation (RT) framework for MWU, which removes the uniqueness condition and achieves competitive performance with OMWU. Unfortunately, RT-based algorithms perform worse than OGDA under the same number of iterations, and their convergence guarantee is based on the continuous-time feedback assumption, which does not hold in most scenarios. To address these issues, we provide a closer analysis of the RT framework, which holds for both continuous and discrete-time feedback. We demonstrate that the essence of the RT framework is to transform the problem of learning NE in the original game into a series of strongly convex-concave optimization problems (SCCPs). We show that the bottleneck of RT-based algorithms is the speed of solving SCCPs. To improve the their empirical performance, we design a novel transformation method to enable the SCCPs can be solved by Regret Matching+ (RM+), a no-regret algorithm with better empirical performance, resulting in Reward Transformation RM+ (RTRM+). RTRM+ enjoys last-iterate convergence under the discrete-time feedback setting. Using the counterfactual regret decomposition framework, we propose Reward Transformation CFR+ (RTCFR+) to extend RTRM+ to EFGs. Experimental results show that our algorithms significantly outperform existing last-iterate convergence algorithms and RM+ (CFR+).
Abstract（参考訳）: 非回帰アルゴリズムは、NFG(Non-player zero-sum normal-form game)とEFG(Exparious-form Games)でナッシュ均衡(NE)を学ぶのに人気がある。最近の多くの研究で、ラストイテレート収束ノーレグレットアルゴリズムが検討されている。その中でも最も有名なのが、OGDA(Optimistic Gradient Descent Ascent)とOMWU(Optimistic Multiplicative Weight Update)である。しかし、OGDAはイテレーション当たりの複雑さが高い。 OMWUは、単体比の複雑さは低いが経験的性能は低く、NEが一意である場合にのみ収束する。近年,MWU に対するリワード変換 (RT) フレームワークが提案されている。残念なことに、RTベースのアルゴリズムは同じイテレーション数でOGDAよりもパフォーマンスが悪く、収束保証はほとんどのシナリオでは成立しない継続的フィードバックの仮定に基づいている。これらの問題に対処するため、連続的なフィードバックと離散的なフィードバックを両立するRTフレームワークをより深く分析する。 RTフレームワークの本質は,オリジナルゲームにおけるNE学習の問題を,一連のコンベックス・コンケーブ最適化問題(SCCP)に変換することである。 RTに基づくアルゴリズムのボトルネックはSCCPを解くスピードであることを示す。実験性能を改善するために,Regret Matching+ (RM+)によりSCCPを解ける新しい変換法を設計し,実験性能を向上し,Reward Transformation RM+ (RTRM+) を実現する。 rtrm+は離散時間フィードバック設定下でラストイテレート収束を楽しむ。本稿では, RTRM+をEFGに拡張するReward Transformation CFR+(RTCFR+)を提案する。実験の結果,本アルゴリズムは既存のラストイテレート収束アルゴリズムとrm+(cfr+)を大きく上回ることがわかった。

関連論文リスト

A Fresh Look at Generalized Category Discovery through Non-negative Matrix Factorization [83.12938977698988]
Generalized Category Discovery (GCD) は、ラベル付きベースデータを用いて、ベース画像と新規画像の両方を分類することを目的としている。現在のアプローチでは、コサイン類似性に基づく共起行列 $barA$ の固有の最適化に不適切に対処している。本稿では,これらの欠陥に対処するNon-Negative Generalized Category Discovery (NN-GCD) フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T07:24:11Z)
Minimizing Weighted Counterfactual Regret with Optimistic Online Mirror Descent [44.080852682765276]
本研究は,楽観的オンラインミラードライザー(OMD)による重み付き反事実的後悔の最小化を探求する。 PCFR+とDiscounted CFR(DCFR)を原則的に統合し、支配的な作用の負の効果を迅速に緩和する。 PDCFR+は不完全情報ゲームにおいて高速収束を示す実験結果が得られた。
論文参考訳（メタデータ） (2024-04-22T05:37:22Z)
Last-Iterate Convergence Properties of Regret-Matching Algorithms in Games [72.43065138581589]
RM$+$ の様々な一般的な変種の最後の点収束特性について検討する。本稿では, RM$+$の同時適用, RM$+$の交互化, RM$+$の予測, 最終項目収束保証の欠如など, 実用的バリエーションのいくつかを数値的に示す。そして、スムーズな手法に基づく最近のアルゴリズムの変種は、最終点収束を楽しむことを証明した。
論文参考訳（メタデータ） (2023-11-01T17:34:58Z)
Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback [75.29048190099523]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文参考訳（メタデータ） (2023-10-21T18:38:13Z)
Learning Regularized Monotone Graphon Mean-Field Games [155.38727464526923]
正規化グラフィオン平均フィールドゲーム(GMFG)の基本問題について検討する。我々は、$lambda$-regularized GMFG の Nash Equilibrium (NE) の存在を確立する。弱い単調なGMFGでNEを学習するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-12T07:34:13Z)
The Power of Regularization in Solving Extensive-Form Games [22.557806157585834]
本稿では,ゲームにおける支払関数の正規化に基づく新しいアルゴリズムを提案する。特に、拡張された楽観的ミラー降下(DOMD)が高速な$tilde O(T)$ last-iterate convergenceを達成できることを示す。また、Reg-CFRは、楽観的ミラー降下アルゴリズムの変形を最小化して、$O(T1/4)$ベストイテレート、$O(T3/4)$平均イテレート収束率を達成できることを示した。
論文参考訳（メタデータ） (2022-06-19T22:10:38Z)
HessianFR: An Efficient Hessian-based Follow-the-Ridge Algorithm for Minimax Optimization [18.61046317693516]
HessianFR は理論的な保証を持つ効率的な Hessian-based Follow-the-Ridge アルゴリズムである。合成および実世界の大規模画像データセットを用いてGAN(Generative Adversarial Network)のトレーニング実験を行った。
論文参考訳（メタデータ） (2022-05-23T04:28:52Z)
Regret Bounds for Expected Improvement Algorithms in Gaussian Process Bandit Optimization [63.8557841188626]
期待されている改善(EI)アルゴリズムは、不確実性の下で最適化するための最も一般的な戦略の1つである。本稿では,GP予測平均を通した標準既存値を持つEIの変種を提案する。我々のアルゴリズムは収束し、$mathcal O(gamma_TsqrtT)$の累積後悔境界を達成することを示す。
論文参考訳（メタデータ） (2022-03-15T13:17:53Z)
Regularized Frank-Wolfe for Dense CRFs: Generalizing Mean Field and Beyond [19.544213396776268]
我々は,高次条件場に対する汎用的で効果的なCNNベースライン推論である正規化Frank-Wolfeを導入する。新しいアルゴリズム、新しいアルゴリズム、新しいデータセット、強力なニューラルネットワークの大幅な改善が示されています。
論文参考訳（メタデータ） (2021-10-27T20:44:47Z)
Equivalence Analysis between Counterfactual Regret Minimization and Online Mirror Descent [67.60077332154853]
反実的回帰最小化(英: Counterfactual Regret Minimization, CFR)は、局所的反実的後悔を最小化することにより、全遺を最小化する後悔最小化アルゴリズムである。 FTRL(Follow-the-Regularized-Lead)アルゴリズムとOMD(Online Mirror Descent)アルゴリズムは,オンライン凸最適化における最小化アルゴリズムである。本稿では,CFR と Regret Matching+ の CFR が FTRL および OMD の特別な形式であることを証明し,CFR を解析・拡張する新しい方法を提案する。
論文参考訳（メタデータ） (2021-10-11T02:12:25Z)
Stochastic Gradient Descent-Ascent and Consensus Optimization for Smooth Games: Convergence Analysis under Expected Co-coercivity [49.66890309455787]
本稿では,SGDA と SCO の最終的な収束保証として,期待されるコヒーレンシティ条件を導入し,その利点を説明する。定常的なステップサイズを用いた場合、両手法の線形収束性を解の近傍に証明する。我々の収束保証は任意のサンプリングパラダイムの下で保たれ、ミニバッチの複雑さに関する洞察を与える。
論文参考訳（メタデータ） (2021-06-30T18:32:46Z)
Last-iterate Convergence in Extensive-Form Games [49.31256241275577]
逐次ゲームにおける楽観的アルゴリズムの最後の点収束について検討する。これらのアルゴリズムはいずれも最終点収束を楽しみ、そのいくつかは指数関数的に高速に収束する。
論文参考訳（メタデータ） (2021-06-27T22:02:26Z)
Faster Game Solving via Predictive Blackwell Approachability: Connecting Regret Matching and Mirror Descent [119.5481797273995]
FTRL (Follow-the-regularized-leader) とオンラインミラー降下 (OMD) は、オンライン凸最適化における最も一般的な後悔の最小化手法である。 RMとRM+はFTRLとOMDをそれぞれ実行し、ブラックウェルのアプローチ性ゲームにおいて、ハーフスペースを常に強制的に選択するアルゴリズムであることを示す。 18の共通ゼロサムワイドフォームベンチマークゲームを対象とした実験では,予測的RM+と反ファクト的後悔の最小化が,最速のアルゴリズムよりもはるかに高速に収束することを示した。
論文参考訳（メタデータ） (2020-07-28T16:49:55Z)
Stochastic Regret Minimization in Extensive-Form Games [109.43344748069933]
Monte-Carlo counterfactual regret minimization (MCCFR) は、完全な木には大きすぎるシーケンシャルゲームを解くための最先端のアルゴリズムである。後悔の最小化手法を開発するための新しい枠組みを開発する。 MCCFRよりも優れた方法がいくつかある3つのゲームについて広範な実験を行った。
論文参考訳（メタデータ） (2020-02-19T23:05:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。