論文の概要: Why Spectral Normalization Stabilizes GANs: Analysis and Improvements
- arxiv url: http://arxiv.org/abs/2009.02773v2
- Date: Thu, 8 Apr 2021 00:29:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 07:54:16.616491
- Title: Why Spectral Normalization Stabilizes GANs: Analysis and Improvements
- Title(参考訳): スペクトル正規化がganを安定化する理由:分析と改善
- Authors: Zinan Lin, Vyas Sekar, Giulia Fanti
- Abstract要約: SNはGANトレーニングにおいて,爆発と消滅という2つの重要な障害モードを制御する。
新しいスペクトル正規化手法:双方向スケールスペクトル正規化(BSSN)を提案する。
- 参考スコア(独自算出の注目度): 12.765060550622422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spectral normalization (SN) is a widely-used technique for improving the
stability and sample quality of Generative Adversarial Networks (GANs).
However, there is currently limited understanding of why SN is effective. In
this work, we show that SN controls two important failure modes of GAN
training: exploding and vanishing gradients. Our proofs illustrate a (perhaps
unintentional) connection with the successful LeCun initialization. This
connection helps to explain why the most popular implementation of SN for GANs
requires no hyper-parameter tuning, whereas stricter implementations of SN have
poor empirical performance out-of-the-box. Unlike LeCun initialization which
only controls gradient vanishing at the beginning of training, SN preserves
this property throughout training. Building on this theoretical understanding,
we propose a new spectral normalization technique: Bidirectional Scaled
Spectral Normalization (BSSN), which incorporates insights from later
improvements to LeCun initialization: Xavier initialization and Kaiming
initialization. Theoretically, we show that BSSN gives better gradient control
than SN. Empirically, we demonstrate that it outperforms SN in sample quality
and training stability on several benchmark datasets.
- Abstract(参考訳): スペクトル正規化(SN)は、GAN(Generative Adversarial Networks)の安定性とサンプル品質を改善するために広く使われている手法である。
しかし、現在snがなぜ有効であるのかの理解は限られている。
本稿では,ganトレーニングにおいてsnが2つの重要な障害モードを制御することを示す。
我々の証明は、成功するLeCunの初期化と(おそらく意図しない)つながりを示している。
この接続は、SN for GANの最も一般的な実装がハイパーパラメータチューニングを必要としない理由を説明するのに役立つ。
LeCunの初期化はトレーニングの開始時に消失する勾配のみを制御するが、SNはこの特性をトレーニングを通して保持する。
この理論的理解に基づいて,両方向スケールスペクトル正規化 (BSSN) という新たなスペクトル正規化手法を提案する。
理論的には, BSSNはSNよりも勾配制御が優れている。
実験により、いくつかのベンチマークデータセットにおいて、SNのサンプル品質およびトレーニング安定性に優れることを示した。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - Fast Graph Sharpness-Aware Minimization for Enhancing and Accelerating Few-Shot Node Classification [53.727688136434345]
グラフニューラルネットワーク(GNN)はノード分類において優れた性能を示している。
高速グラフシャープネス認識最小化(FGSAM)を提案する。
提案アルゴリズムは,FSNCタスクにおいて,計算コストの低い標準SAMよりも優れる。
論文 参考訳(メタデータ) (2024-10-22T09:33:29Z) - On the Initialization of Graph Neural Networks [10.153841274798829]
グラフニューラルネットワーク層間の前方・後方伝播のばらつきを解析する。
GNN最適化(Virgo)における可変不安定化のための新しい手法を提案する。
15のデータセットで包括的な実験を行い、Virgoが優れたモデルパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2023-12-05T09:55:49Z) - Inducing Early Neural Collapse in Deep Neural Networks for Improved
Out-of-Distribution Detection [0.9558392439655015]
本稿では,標準ResNetアーキテクチャの簡易な修正,すなわち機能空間上のL2正規化を提案する。
この変化は初期のニューラル・コラプス(NC)も引き起こし、より優れたOoD性能が期待できる効果を示す。
論文 参考訳(メタデータ) (2022-09-17T17:46:06Z) - Positive-Negative Momentum: Manipulating Stochastic Gradient Noise to
Improve Generalization [89.7882166459412]
勾配雑音(SGN)は、ディープラーニングの暗黙の正規化として機能する。
深層学習を改善するためにランダムノイズを注入してSGNを人工的にシミュレートしようとした作品もある。
低計算コストでSGNをシミュレーションし、学習率やバッチサイズを変更することなく、PNM(Positive-Negative Momentum)アプローチを提案する。
論文 参考訳(メタデータ) (2021-03-31T16:08:06Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Gradient Centralization: A New Optimization Technique for Deep Neural
Networks [74.935141515523]
勾配集中(GC)は、勾配ベクトルをゼロ平均とする集中化によって、勾配を直接操作する。
GCは、制約された損失関数を持つ射影勾配降下法とみなすことができる。
GCは実装が非常に簡単で、1行のコードだけで既存のグラデーションベースのDNNに簡単に組み込める。
論文 参考訳(メタデータ) (2020-04-03T10:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。