論文の概要: Recursive Reasoning in Minimax Games: A Level $k$ Gradient Play Method
- arxiv url: http://arxiv.org/abs/2210.16482v1
- Date: Sat, 29 Oct 2022 03:43:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 19:24:46.681826
- Title: Recursive Reasoning in Minimax Games: A Level $k$ Gradient Play Method
- Title(参考訳): ミニマックスゲームにおける再帰推論:レベル$k$グラディエントプレイ法
- Authors: Zichu Liu, Lacra Pavel
- Abstract要約: GAN(Generative Adversarial Network)は、訓練が難しいことで知られている。
新たな推論を提案する: Level $k$ Play (Lvv.k GP)
多くの既存アルゴリズムとは対照的に、我々のアルゴリズムは洗練された情報や曲率情報を必要としない。
我々は、30時間以内に無条件画像生成のための10.17のFIDを達成し、一般的な計算資源のGANトレーニングを最先端のパフォーマンスに到達させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite the success of generative adversarial networks (GANs) in generating
visually appealing images, they are notoriously challenging to train. In order
to stabilize the learning dynamics in minimax games, we propose a novel
recursive reasoning algorithm: Level $k$ Gradient Play (Lv.$k$ GP) algorithm.
In contrast to many existing algorithms, our algorithm does not require
sophisticated heuristics or curvature information. We show that as $k$
increases, Lv.$k$ GP converges asymptotically towards an accurate estimation of
players' future strategy. Moreover, we justify that Lv.$\infty$ GP naturally
generalizes a line of provably convergent game dynamics which rely on
predictive updates. Furthermore, we provide its local convergence property in
nonconvex-nonconcave zero-sum games and global convergence in bilinear and
quadratic games. By combining Lv.$k$ GP with Adam optimizer, our algorithm
shows a clear advantage in terms of performance and computational overhead
compared to other methods. Using a single Nvidia RTX3090 GPU and 30 times fewer
parameters than BigGAN on CIFAR-10, we achieve an FID of 10.17 for
unconditional image generation within 30 hours, allowing GAN training on common
computational resources to reach state-of-the-art performance.
- Abstract(参考訳): 視覚に訴える画像の生成にgans(generative adversarial networks)が成功したにもかかわらず、彼らは訓練が難しいことで悪名高い。
ミニマックスゲームにおける学習ダイナミクスを安定化するために,新しい再帰的推論アルゴリズム,level $k$gradient play (lv.$k$ gp) を提案する。
多くの既存アルゴリズムとは対照的に、我々のアルゴリズムは洗練されたヒューリスティックや曲率情報を必要としない。
k$が上がるにつれ、lvは増加する。
k$ gpはプレイヤーの将来戦略を正確に推定するために漸近的に収束する。
さらに、我々はそのLvを正当化する。
$\infty$ GP は、予測更新に依存する証明可能な収束ゲーム力学の行を自然に一般化する。
さらに、非凸非凸ゼロサムゲームにおける局所収束特性と双線型および二次ゲームにおける大域収束性を提供する。
Lvと組み合わせる。
提案アルゴリズムは,Adam Optimizationr を用いた GP の$k$ GP で,他の手法と比較して,性能と計算オーバーヘッドの面で明らかな優位性を示す。
CIFAR-10の1つのNvidia RTX3090 GPUとBigGANの30倍のパラメータを使用すれば、30時間以内に無条件画像生成のためのFIDが10.17になる。
関連論文リスト
- Last-Iterate Convergence Properties of Regret-Matching Algorithms in
Games [72.43065138581589]
RM$+$ の様々な一般的な変種の最後の点収束特性について検討する。
本稿では, RM$+$の同時適用, RM$+$の交互化, RM$+$の予測, 最終項目収束保証の欠如など, 実用的バリエーションのいくつかを数値的に示す。
そして、スムーズな手法に基づく最近のアルゴリズムの変種は、最終点収束を楽しむことを証明した。
論文 参考訳(メタデータ) (2023-11-01T17:34:58Z) - Doubly Optimal No-Regret Learning in Monotone Games [10.760195409078591]
本研究では,スムーズなモノトーンゲームのための2倍最適非線形学習アルゴリズムを提案する。
このアルゴリズムは, 滑らかかつ凸な損失関数の下での対角的条件下での最適$O(sqrtT)$後悔と, (ii) 最適$O(frac1T)$最後の収束率をナッシュ平衡に達成する。
論文 参考訳(メタデータ) (2023-01-30T17:55:53Z) - Near-Optimal No-Regret Learning for General Convex Games [121.50979258049135]
一般凸およびコンパクト戦略集合に対して後悔が得られることを示す。
我々の力学は、適度にエンハンリフトされた空間上の楽観的な従順化バウンドのインスタンス化にある。
先行結果が適用される特殊な場合であっても、我々のアルゴリズムは最先端の後悔よりも改善される。
論文 参考訳(メタデータ) (2022-06-17T12:58:58Z) - Policy Optimization for Markov Games: Unified Framework and Faster
Convergence [81.3266426402464]
このアルゴリズムのステートワイド平均ポリシはゲームの近似ナッシュ平衡(NE)に収束することを示す。
このアルゴリズムをマルチプレイヤー一般のMarkov Gamesに拡張し、CCE(Correlated Equilibria)への$mathcalwidetildeO(T-1/2)$収束率を示す。
論文 参考訳(メタデータ) (2022-06-06T14:23:13Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z) - Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。
本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文 参考訳(メタデータ) (2021-06-02T22:03:36Z) - Tight last-iterate convergence rates for no-regret learning in
multi-player games [31.604950465209335]
定常的なステップサイズを持つ楽観的勾配(OG)アルゴリズムは,スムーズな単調ゲームにおいて最終定位レートが$O(1/sqrtT)であることを示す。
また、$O (1/sqrtT)$レートは、特別なケースとしてOGを含む全ての$p$-SCLIアルゴリズムに対して厳密であることを示す。
論文 参考訳(メタデータ) (2020-10-26T17:06:19Z) - Impact of Representation Learning in Linear Bandits [83.17684841392754]
本研究では,表現学習が帯域幅問題の効率性を向上させる方法について検討する。
我々は,$widetildeO(TsqrtkN + sqrtdkNT)$ regretを達成する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-13T16:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。