論文の概要: Dissecting adaptive methods in GANs
- arxiv url: http://arxiv.org/abs/2210.04319v1
- Date: Sun, 9 Oct 2022 19:00:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 18:41:42.243801
- Title: Dissecting adaptive methods in GANs
- Title(参考訳): GANにおける解離適応法
- Authors: Samy Jelassi, David Dobre, Arthur Mensch, Yuanzhi Li, Gauthier Gidel
- Abstract要約: 我々は、適応的手法がGAN(Generative Adversarial Network)の訓練にどう役立つかを検討する。
我々は,Adam更新の程度とSGDの正規化方向の更新ルールを考慮し,Adamの適応度がGANトレーニングの鍵であることを実証的に示す。
この設定では、nSGDAで訓練されたGANが真の分布のすべてのモードを回復するのに対し、SGDA(および学習率構成)で訓練された同じネットワークはモード崩壊に悩まされていることを証明している。
- 参考スコア(独自算出の注目度): 46.90376306847234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adaptive methods are a crucial component widely used for training generative
adversarial networks (GANs). While there has been some work to pinpoint the
"marginal value of adaptive methods" in standard tasks, it remains unclear why
they are still critical for GAN training. In this paper, we formally study how
adaptive methods help train GANs; inspired by the grafting method proposed in
arXiv:2002.11803 [cs.LG], we separate the magnitude and direction components of
the Adam updates, and graft them to the direction and magnitude of SGDA updates
respectively. By considering an update rule with the magnitude of the Adam
update and the normalized direction of SGD, we empirically show that the
adaptive magnitude of Adam is key for GAN training. This motivates us to have a
closer look at the class of normalized stochastic gradient descent ascent
(nSGDA) methods in the context of GAN training. We propose a synthetic
theoretical framework to compare the performance of nSGDA and SGDA for GAN
training with neural networks. We prove that in that setting, GANs trained with
nSGDA recover all the modes of the true distribution, whereas the same networks
trained with SGDA (and any learning rate configuration) suffer from mode
collapse. The critical insight in our analysis is that normalizing the
gradients forces the discriminator and generator to be updated at the same
pace. We also experimentally show that for several datasets, Adam's performance
can be recovered with nSGDA methods.
- Abstract(参考訳): アダプティブ・メソッドはGAN(Generative Adversarial Network)のトレーニングに広く用いられている重要なコンポーネントである。
標準タスクの「適応メソッドの正当性」を見極める作業はいくつかあるが、なぜそれがまだGANトレーニングにとって重要なのかは不明だ。
本稿では,適応的手法がGANの訓練にどのように役立つかを正式に研究し,arXiv:2002.11803[cs.LG]で提案されたグラフト法にヒントを得て,Adam更新の寸法と方向成分を分離し,それぞれSGDA更新の方向と大きさにグラフトする。
我々は,Adam更新の程度とSGDの正規化方向の更新ルールを考慮することで,Adamの適応度がGANトレーニングの鍵であることを実証的に示す。
このことは、GANトレーニングの文脈における正規化確率勾配勾配上昇法(nSGDA)のクラスをより深く観察する動機となっている。
ニューラルネットワークを用いたGANトレーニングにおけるnSGDAとSGDAの性能を比較するための合成理論フレームワークを提案する。
この設定では、nSGDAで訓練されたGANが真の分布のすべてのモードを回復するのに対し、SGDA(および学習率構成)で訓練された同じネットワークはモード崩壊に悩まされる。
我々の分析における重要な洞察は、勾配の正規化は、判別器とジェネレータを同じペースで更新することを強制するということである。
また、いくつかのデータセットに対して、nSGDA法でAdamのパフォーマンスを復元できることを実験的に示す。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Non-convergence of Adam and other adaptive stochastic gradient descent optimization methods for non-vanishing learning rates [3.6185342807265415]
ディープラーニングアルゴリズムは多くの人工知能(AI)システムにおいて重要な要素である。
ディープラーニングアルゴリズムは通常、勾配降下(SGD)最適化法によって訓練されたディープニューラルネットワークのクラスで構成されている。
論文 参考訳(メタデータ) (2024-07-11T00:10:35Z) - DRED: Zero-Shot Transfer in Reinforcement Learning via Data-Regularised Environment Design [11.922951794283168]
本研究では,RLエージェントのゼロショット一般化能力(ZSG)に,個々の環境インスタンスやレベルのサンプリングがどう影響するかを検討する。
基本層を共有する深いアクター・クリティカルなアーキテクチャでは, エージェントの内部表現と, 生成したトレーニングデータのトレーニングレベルとの相互情報を最小限に抑える。
既存のUED手法は,ZSG性能の低いトレーニング分布を著しくシフトできることがわかった。
オーバーフィッティングと分散シフトの両面を防止するため,データ正規化環境設計(D)を導入する。
論文 参考訳(メタデータ) (2024-02-05T19:47:45Z) - Understanding the robustness difference between stochastic gradient
descent and adaptive gradient methods [11.895321856533934]
勾配降下法(SGD)と適応勾配法はディープニューラルネットワークの訓練に広く用いられている。
これらの手法を用いて訓練したモデルの標準一般化性能の差は小さいが、SGDを用いて訓練したモデルは入力摂動下でははるかに頑健であることを示す。
論文 参考訳(メタデータ) (2023-08-13T07:03:22Z) - Local Convergence of Gradient Descent-Ascent for Training Generative
Adversarial Networks [20.362912591032636]
本稿では,GANをカーネルベース判別器で訓練するための勾配降下度(GDA)の局所的ダイナミクスについて検討する。
システムがいつ収束するか、振動するか、あるいは分岐するかを示す相転移を示す。
論文 参考訳(メタデータ) (2023-05-14T23:23:08Z) - LD-GAN: Low-Dimensional Generative Adversarial Network for Spectral
Image Generation with Variance Regularization [72.4394510913927]
ディープラーニング法はスペクトル画像(SI)計算タスクの最先端技術である。
GANは、データ分散から学習およびサンプリングすることで、多様な拡張を可能にする。
この種のデータの高次元性は、GANトレーニングの収束を妨げるため、GANベースのSI生成は困難である。
本稿では, オートエンコーダ訓練における低次元表現分散を制御し, GANで生成されたサンプルの多様性を高めるための統計正則化を提案する。
論文 参考訳(メタデータ) (2023-04-29T00:25:02Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。