論文の概要: Dissecting adaptive methods in GANs
- arxiv url: http://arxiv.org/abs/2210.04319v1
- Date: Sun, 9 Oct 2022 19:00:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 18:41:42.243801
- Title: Dissecting adaptive methods in GANs
- Title(参考訳): GANにおける解離適応法
- Authors: Samy Jelassi, David Dobre, Arthur Mensch, Yuanzhi Li, Gauthier Gidel
- Abstract要約: 我々は、適応的手法がGAN(Generative Adversarial Network)の訓練にどう役立つかを検討する。
我々は,Adam更新の程度とSGDの正規化方向の更新ルールを考慮し,Adamの適応度がGANトレーニングの鍵であることを実証的に示す。
この設定では、nSGDAで訓練されたGANが真の分布のすべてのモードを回復するのに対し、SGDA(および学習率構成)で訓練された同じネットワークはモード崩壊に悩まされていることを証明している。
- 参考スコア(独自算出の注目度): 46.90376306847234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adaptive methods are a crucial component widely used for training generative
adversarial networks (GANs). While there has been some work to pinpoint the
"marginal value of adaptive methods" in standard tasks, it remains unclear why
they are still critical for GAN training. In this paper, we formally study how
adaptive methods help train GANs; inspired by the grafting method proposed in
arXiv:2002.11803 [cs.LG], we separate the magnitude and direction components of
the Adam updates, and graft them to the direction and magnitude of SGDA updates
respectively. By considering an update rule with the magnitude of the Adam
update and the normalized direction of SGD, we empirically show that the
adaptive magnitude of Adam is key for GAN training. This motivates us to have a
closer look at the class of normalized stochastic gradient descent ascent
(nSGDA) methods in the context of GAN training. We propose a synthetic
theoretical framework to compare the performance of nSGDA and SGDA for GAN
training with neural networks. We prove that in that setting, GANs trained with
nSGDA recover all the modes of the true distribution, whereas the same networks
trained with SGDA (and any learning rate configuration) suffer from mode
collapse. The critical insight in our analysis is that normalizing the
gradients forces the discriminator and generator to be updated at the same
pace. We also experimentally show that for several datasets, Adam's performance
can be recovered with nSGDA methods.
- Abstract(参考訳): アダプティブ・メソッドはGAN(Generative Adversarial Network)のトレーニングに広く用いられている重要なコンポーネントである。
標準タスクの「適応メソッドの正当性」を見極める作業はいくつかあるが、なぜそれがまだGANトレーニングにとって重要なのかは不明だ。
本稿では,適応的手法がGANの訓練にどのように役立つかを正式に研究し,arXiv:2002.11803[cs.LG]で提案されたグラフト法にヒントを得て,Adam更新の寸法と方向成分を分離し,それぞれSGDA更新の方向と大きさにグラフトする。
我々は,Adam更新の程度とSGDの正規化方向の更新ルールを考慮することで,Adamの適応度がGANトレーニングの鍵であることを実証的に示す。
このことは、GANトレーニングの文脈における正規化確率勾配勾配上昇法(nSGDA)のクラスをより深く観察する動機となっている。
ニューラルネットワークを用いたGANトレーニングにおけるnSGDAとSGDAの性能を比較するための合成理論フレームワークを提案する。
この設定では、nSGDAで訓練されたGANが真の分布のすべてのモードを回復するのに対し、SGDA(および学習率構成)で訓練された同じネットワークはモード崩壊に悩まされる。
我々の分析における重要な洞察は、勾配の正規化は、判別器とジェネレータを同じペースで更新することを強制するということである。
また、いくつかのデータセットに対して、nSGDA法でAdamのパフォーマンスを復元できることを実験的に示す。
関連論文リスト
- Understanding the robustness difference between stochastic gradient
descent and adaptive gradient methods [11.895321856533934]
勾配降下法(SGD)と適応勾配法はディープニューラルネットワークの訓練に広く用いられている。
これらの手法を用いて訓練したモデルの標準一般化性能の差は小さいが、SGDを用いて訓練したモデルは入力摂動下でははるかに頑健であることを示す。
論文 参考訳(メタデータ) (2023-08-13T07:03:22Z) - PDE+: Enhancing Generalization via PDE with Adaptive Distributional
Diffusion [66.95761172711073]
ニューラルネットワークの一般化は、機械学習における中心的な課題です。
本稿では、入力データを調整することに集中するのではなく、ニューラルネットワークの基盤機能を直接拡張することを提案する。
私たちはこの理論的フレームワークを、$textbfPDE+$$textbfPDE$ with $textbfA$daptive $textbfD$istributional $textbfD$iffusionとして実践しました。
論文 参考訳(メタデータ) (2023-05-25T08:23:26Z) - Local Convergence of Gradient Descent-Ascent for Training Generative
Adversarial Networks [20.362912591032636]
本稿では,GANをカーネルベース判別器で訓練するための勾配降下度(GDA)の局所的ダイナミクスについて検討する。
システムがいつ収束するか、振動するか、あるいは分岐するかを示す相転移を示す。
論文 参考訳(メタデータ) (2023-05-14T23:23:08Z) - LD-GAN: Low-Dimensional Generative Adversarial Network for Spectral
Image Generation with Variance Regularization [72.4394510913927]
ディープラーニング法はスペクトル画像(SI)計算タスクの最先端技術である。
GANは、データ分散から学習およびサンプリングすることで、多様な拡張を可能にする。
この種のデータの高次元性は、GANトレーニングの収束を妨げるため、GANベースのSI生成は困難である。
本稿では, オートエンコーダ訓練における低次元表現分散を制御し, GANで生成されたサンプルの多様性を高めるための統計正則化を提案する。
論文 参考訳(メタデータ) (2023-04-29T00:25:02Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - A New Adaptive Gradient Method with Gradient Decomposition [3.04585143845864]
我々は、勾配降下(SGD)とその加速スキーム(SGDM)に比較して、低次化を一般化するDecGDと呼ばれる新しい適応法を提案する。
本手法は,Adam方式の2乗勾配に代えて,電流損失に基づくベクトルに応じて学習率を適応的に調整する。
我々は、DECGDがSGDMよりも優れた一般化性能を示し、Adam-type法のような高速収束を示すことを示す。
論文 参考訳(メタデータ) (2021-07-18T06:37:28Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - A Dynamic Sampling Adaptive-SGD Method for Machine Learning [8.173034693197351]
本稿では,勾配近似の計算に使用されるバッチサイズと,その方向に移動するステップサイズを適応的に制御する手法を提案する。
提案手法は局所曲率情報を利用して探索方向を高い確率で降下方向とする。
数値実験により、この手法は最適な学習率を選択することができ、ロジスティック回帰とDNNを訓練するための微調整されたSGDと好適に比較できることが示された。
論文 参考訳(メタデータ) (2019-12-31T15:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。