論文の概要: Rapid Learning in Constrained Minimax Games with Negative Momentum
- arxiv url: http://arxiv.org/abs/2501.00533v1
- Date: Tue, 31 Dec 2024 16:32:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:13:08.954555
- Title: Rapid Learning in Constrained Minimax Games with Negative Momentum
- Title(参考訳): 負のモーメントを持つ制約付きミニマックスゲームにおける高速学習
- Authors: Zijian Fang, Zongkai Liu, Chao Yu, Chaohao Hu,
- Abstract要約: 本稿では,非拘束条件から制約条件まで負の運動量の発見を拡大する,運動量バッファ更新のための新しいフレームワークを提案する。
正規形式ゲーム (NFGs) と拡張形式ゲーム (EFGs) の両方の実験結果から、我々の運動量技術はアルゴリズムの性能を大幅に向上させることができることを示した。
- 参考スコア(独自算出の注目度): 5.086470864936883
- License:
- Abstract: In this paper, we delve into the utilization of the negative momentum technique in constrained minimax games. From an intuitive mechanical standpoint, we introduce a novel framework for momentum buffer updating, which extends the findings of negative momentum from the unconstrained setting to the constrained setting and provides a universal enhancement to the classic game-solver algorithms. Additionally, we provide theoretical guarantee of convergence for our momentum-augmented algorithms with entropy regularizer. We then extend these algorithms to their extensive-form counterparts. Experimental results on both Normal Form Games (NFGs) and Extensive Form Games (EFGs) demonstrate that our momentum techniques can significantly improve algorithm performance, surpassing both their original versions and the SOTA baselines by a large margin.
- Abstract(参考訳): 本稿では,制約付きミニマックスゲームにおける負運動量法の利用について検討する。
直感的な機械的観点から,制約のない設定から制約された設定まで負の運動量の発見を拡張し,古典的なゲーム解決アルゴリズムの普遍的な拡張を提供する,運動量バッファ更新のための新しいフレームワークを導入する。
さらに、エントロピー正規化器を用いた運動量増強アルゴリズムに対する収束の理論的保証を提供する。
次に、これらのアルゴリズムを拡張形式に拡張します。
正規形式ゲーム (NFGs) と拡張形式ゲーム (EFGs) の両方の実験結果から、我々の運動量技術はアルゴリズムの性能を著しく向上させ、元のバージョンとSOTAベースラインを大きなマージンで上回ることを示した。
関連論文リスト
- On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Kernelized Multiplicative Weights for 0/1-Polyhedral Games: Bridging the
Gap Between Learning in Extensive-Form and Normal-Form Games [76.21916750766277]
カーネルトリックを用いて,最適乗算重み更新(OMWU)アルゴリズムをゲームツリーサイズ毎のリニア時間でEFGの正規形等価値にシミュレート可能であることを示す。
特に、KoMWUは、最終点収束を同時に保証する最初のアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-01T06:28:51Z) - Temporal Induced Self-Play for Stochastic Bayesian Games [32.88124137877018]
我々は,任意の意思決定点から適切なパフォーマンスの戦略を見つけるために,TISP(Temporal-induced Self-Play)を提案する。
TISPは、信念空間表現、後方誘導、ポリシー学習、および非パラメトリック近似を使用する。
TISPに基づくアルゴリズムは、有限地平線を持つゼロサム片面ゲームにおいて、近似されたパーフェクトベイズ平衡を見つけることができることを証明している。
論文 参考訳(メタデータ) (2021-08-21T05:36:42Z) - Last-iterate Convergence in Extensive-Form Games [49.31256241275577]
逐次ゲームにおける楽観的アルゴリズムの最後の点収束について検討する。
これらのアルゴリズムはいずれも最終点収束を楽しみ、そのいくつかは指数関数的に高速に収束する。
論文 参考訳(メタデータ) (2021-06-27T22:02:26Z) - Understanding Modern Techniques in Optimization: Frank-Wolfe, Nesterov's
Momentum, and Polyak's Momentum [8.515692980023948]
コンベックス最適化のための反復アルゴリズムの構築と解析のレシピとして機能するモジュラーフレームワークを開発した。
我々は,いくつかの制約セットに対して,FrankWolf Nesterovアルゴリズムを新たに3つ導入した。
第2部では、ある問題に対するPolyak運動量のモジュラー解析を開発する。
論文 参考訳(メタデータ) (2021-06-23T17:53:39Z) - Complex Momentum for Learning in Games [42.081050296353574]
我々は、微分可能なゲームにおいて学習する運動量を伴う勾配降下を複素数値運動量を持つように一般化する。
我々は、複雑な値の運動量によってゲーム内の収束性が改善できることを実証する。
我々はまた、CIFAR-10のより良いスコアにBigGANを訓練するために使用する複素値アダム変種への実用的な一般化を示す。
論文 参考訳(メタデータ) (2021-02-16T19:55:27Z) - On the Suboptimality of Negative Momentum for Minimax Optimization [9.400440302623839]
負の運動量によってゲームダイナミクスの収束は局所的に加速するが、最適以下の速度で加速することを示す。
これは、この設定において明示的な収束率運動量を与える最初の研究である。
論文 参考訳(メタデータ) (2020-08-17T16:34:53Z) - Responsive Safety in Reinforcement Learning by PID Lagrangian Methods [74.49173841304474]
ラグランジアン法は振動とオーバーシュートを示し、安全強化学習に適用すると制約違反行動を引き起こす。
制約関数の微分を利用する新しいラグランジュ乗算器更新法を提案する。
我々はPIDラグランジアン法を深部RLに適用し、安全RLベンチマークであるSafety Gymにおける新しい技術状態を設定する。
論文 参考訳(メタデータ) (2020-07-08T08:43:14Z) - Chaos, Extremism and Optimism: Volume Analysis of Learning in Games [55.24050445142637]
本稿では,ゼロサムにおける乗算重み更新 (MWU) と最適乗算重み更新 (OMWU) のボリューム解析と協調ゲームについて述べる。
我々は、OMWUが、その既知の収束挙動の代替的な理解を提供するために、ボリュームを契約していることを示します。
我々はまた、コーディネートゲームを調べる際に役割が逆になるという意味で、自由ランチ型の定理も証明する: OMWU は指数関数的に高速に体積を拡大するが、MWU は契約する。
論文 参考訳(メタデータ) (2020-05-28T13:47:09Z) - Stochastic Regret Minimization in Extensive-Form Games [109.43344748069933]
Monte-Carlo counterfactual regret minimization (MCCFR) は、完全な木には大きすぎるシーケンシャルゲームを解くための最先端のアルゴリズムである。
後悔の最小化手法を開発するための新しい枠組みを開発する。
MCCFRよりも優れた方法がいくつかある3つのゲームについて広範な実験を行った。
論文 参考訳(メタデータ) (2020-02-19T23:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。