論文の概要: Complex Momentum for Learning in Games
- arxiv url: http://arxiv.org/abs/2102.08431v1
- Date: Tue, 16 Feb 2021 19:55:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-19 02:22:43.055750
- Title: Complex Momentum for Learning in Games
- Title(参考訳): ゲーム学習のための複合モーメント
- Authors: Jonathan Lorraine, David Acuna, Paul Vicol, David Duvenaud
- Abstract要約: 我々は、微分可能なゲームにおいて学習する運動量を伴う勾配降下を複素数値運動量を持つように一般化する。
我々は、複雑な値の運動量によってゲーム内の収束性が改善できることを実証する。
我々はまた、CIFAR-10のより良いスコアにBigGANを訓練するために使用する複素値アダム変種への実用的な一般化を示す。
- 参考スコア(独自算出の注目度): 42.081050296353574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We generalize gradient descent with momentum for learning in differentiable
games to have complex-valued momentum. We give theoretical motivation for our
method by proving convergence on bilinear zero-sum games for simultaneous and
alternating updates. Our method gives real-valued parameter updates, making it
a drop-in replacement for standard optimizers. We empirically demonstrate that
complex-valued momentum can improve convergence in adversarial games - like
generative adversarial networks - by showing we can find better solutions with
an almost identical computational cost. We also show a practical generalization
to a complex-valued Adam variant, which we use to train BigGAN to better
inception scores on CIFAR-10.
- Abstract(参考訳): 我々は、微分可能なゲームにおいて学習する運動量を伴う勾配降下を複素数値運動量を持つように一般化する。
本手法の理論的動機は,同時更新と交互更新の両立ゼロサムゲーム上での収束を証明できることにある。
本手法は,実値パラメータの更新を行い,標準オプティマイザの代替となる。
複素数値運動量により、生成的逆数ネットワークのような逆数ゲームにおける収束が向上し、ほぼ同じ計算コストでより良い解が見つかることを実証的に示す。
また,CIFAR-10の発案点を改善するためにBigGANを訓練するために使用する,複雑な値のアダム変種に対する実用的な一般化を示す。
関連論文リスト
- Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - Meta-Value Learning: a General Framework for Learning with Learning
Awareness [1.4323566945483497]
メタバリューによって測定された長期的展望によって共同政策を判断することを提案する。
最適化のメタゲームにQラーニングの形式を適用し、ポリシー更新の連続的な行動空間を明示的に表現する必要がないようにする。
論文 参考訳(メタデータ) (2023-07-17T21:40:57Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Probing Transfer in Deep Reinforcement Learning without Task Engineering [26.637254541454773]
深部強化学習エージェントのための異種変換ベンチマークとして,Atari 2600コンソールがサポートするオリジナルゲームキュリキュラの評価を行った。
ゲームデザイナーは、Space Invaders、Breakout、Freewayといったゲームの基本バージョンにいくつかの個別の修正を加えてキュリキュラを作成した。
基本ゲームからそれらのバリエーションへのゼロショット転送は可能であるが、性能のばらつきは要因間の相互作用によって大きく説明される。
論文 参考訳(メタデータ) (2022-10-22T13:40:12Z) - Towards convergence to Nash equilibria in two-team zero-sum games [17.4461045395989]
2チームゼロサムゲームは、プレイヤーが2つの競合するエージェントに分割されるマルチプレイヤーゲームとして定義される。
我々はNash equilibria(NE)の解の概念に焦点をあてる。
このクラスのゲームに対する計算 NE は、複雑性クラス $mathrm$ に対して $textithard$ であることを示す。
論文 参考訳(メタデータ) (2021-11-07T21:15:35Z) - Last-iterate Convergence in Extensive-Form Games [49.31256241275577]
逐次ゲームにおける楽観的アルゴリズムの最後の点収束について検討する。
これらのアルゴリズムはいずれも最終点収束を楽しみ、そのいくつかは指数関数的に高速に収束する。
論文 参考訳(メタデータ) (2021-06-27T22:02:26Z) - Exponential Convergence of Gradient Methods in Concave Network Zero-sum
Games [6.129776019898013]
コンケーブネットワークゼロサムゲーム(NZSG)におけるナッシュ平衡の計算について検討する。
この一般化において,凸凹型2プレーヤゼロサムゲームの様々なゲーム理論的性質が保存されていることを示す。
論文 参考訳(メタデータ) (2020-07-10T16:56:56Z) - From Poincar\'e Recurrence to Convergence in Imperfect Information
Games: Finding Equilibrium via Regularization [49.368421783733815]
モノトーンゲームにおいて,報酬の適応が強い収束保証を与えることを示す。
また、この報酬適応手法を用いて、Nash平衡に正確に収束するアルゴリズムを構築する方法を示す。
論文 参考訳(メタデータ) (2020-02-19T21:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。