論文の概要: Understanding Overparameterization in Generative Adversarial Networks
- arxiv url: http://arxiv.org/abs/2104.05605v1
- Date: Mon, 12 Apr 2021 16:23:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 19:24:39.351202
- Title: Understanding Overparameterization in Generative Adversarial Networks
- Title(参考訳): 生成型adversarial networkにおける過剰パラメータ化の理解
- Authors: Yogesh Balaji, Mohammadmahdi Sajedi, Neha Mukund Kalibhat, Mucong
Ding, Dominik St\"oger, Mahdi Soltanolkotabi, Soheil Feizi
- Abstract要約: generative adversarial network (gans) は、非凹型ミニマックス最適化問題を訓練するために用いられる。
ある理論は、グローバル最適解に対する勾配降下 (gd) の重要性を示している。
ニューラルネットワークジェネレータと線形判別器を併用した多層GANにおいて、GDAは、基礎となる非凹面min-max問題の大域的なサドル点に収束することを示す。
- 参考スコア(独自算出の注目度): 56.57403335510056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A broad class of unsupervised deep learning methods such as Generative
Adversarial Networks (GANs) involve training of overparameterized models where
the number of parameters of the model exceeds a certain threshold. A large body
of work in supervised learning have shown the importance of model
overparameterization in the convergence of the gradient descent (GD) to
globally optimal solutions. In contrast, the unsupervised setting and GANs in
particular involve non-convex concave mini-max optimization problems that are
often trained using Gradient Descent/Ascent (GDA). The role and benefits of
model overparameterization in the convergence of GDA to a global saddle point
in non-convex concave problems is far less understood. In this work, we present
a comprehensive analysis of the importance of model overparameterization in
GANs both theoretically and empirically. We theoretically show that in an
overparameterized GAN model with a $1$-layer neural network generator and a
linear discriminator, GDA converges to a global saddle point of the underlying
non-convex concave min-max problem. To the best of our knowledge, this is the
first result for global convergence of GDA in such settings. Our theory is
based on a more general result that holds for a broader class of nonlinear
generators and discriminators that obey certain assumptions (including deeper
generators and random feature discriminators). We also empirically study the
role of model overparameterization in GANs using several large-scale
experiments on CIFAR-10 and Celeb-A datasets. Our experiments show that
overparameterization improves the quality of generated samples across various
model architectures and datasets. Remarkably, we observe that
overparameterization leads to faster and more stable convergence behavior of
GDA across the board.
- Abstract(参考訳): GAN(Generative Adversarial Networks)のような教師なしのディープラーニング手法の幅広いクラスは、モデルのパラメータ数が一定の閾値を超える過パラメータ化モデルのトレーニングを含む。
教師付き学習における大きな研究は、勾配降下 (gd) のグローバル最適解への収束において、モデル過剰パラメータ化の重要性を示している。
対照的に、教師なしの設定と GAN には、非凸凸のミニマックス最適化問題が含まれており、グラディエント・Descent/Ascent (GDA) を用いてしばしば訓練される。
非凸凹問題におけるGDAのグローバルサドル点への収束におけるモデル過度パラメータ化の役割と利点は、はるかに理解されていない。
本稿では,GANにおけるモデル過度パラメータ化の重要性を理論的にも経験的にも包括的に分析する。
理論的には、1ドル層ニューラルネットワークジェネレータと線形判別器を備えた過度パラメータ化GANモデルにおいて、GDAは基礎となる非凸凹 min-max 問題の大域的なサドル点に収束する。
我々の知る限りでは、このような環境でGDAをグローバルに収束させる最初の結果である。
我々の理論は、特定の仮定に従うより広範な非線形ジェネレータや判別器(より深いジェネレータやランダムな特徴判別器を含む)のクラスに対するより一般的な結果に基づいている。
また, CIFAR-10 と Celeb-A データセットを用いた大規模実験により, GAN におけるモデル過度パラメータ化の役割を実証的に検討した。
実験により、オーバーパラメータ化により、様々なモデルアーキテクチャやデータセットで生成されたサンプルの品質が向上することが示された。
注目すべきことに、オーバーパラメータ化はGDAのボード全体の高速でより安定した収束挙動をもたらす。
関連論文リスト
- On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks [56.78271181959529]
Kolmogorov--Arnold Networks (KAN) はディープラーニングコミュニティで注目されている。
実験により、勾配降下(SGD)により最適化されたカンが、ほぼゼロに近い訓練損失を達成できることが示された。
論文 参考訳(メタデータ) (2024-10-10T15:34:10Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Toward the Identifiability of Comparative Deep Generative Models [7.5479347719819865]
比較深部生成モデル(DGM)における識別可能性の理論を提案する。
これらのモデルは、一般的な混合関数のクラスにおいて識別性に欠けるが、混合関数が断片的アフィンであるときに驚くほど識別可能であることを示す。
また, モデルミス種別の影響についても検討し, 従来提案されていた比較DGMの正則化手法が, 潜伏変数の数が事前に分かっていない場合に, 識別可能性を高めることを実証的に示す。
論文 参考訳(メタデータ) (2024-01-29T06:10:54Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - A Unified Momentum-based Paradigm of Decentralized SGD for Non-Convex
Models and Heterogeneous Data [0.261072980439312]
非汎用目的に対する収束保証を提供するU.MP,D-MP,GT-Dという統一パラダイムを提案する。
理論的には、これらの非MPアルゴリズムに対して収束解析目的を2つのアプローチで提供する。
論文 参考訳(メタデータ) (2023-03-01T02:13:22Z) - Deep Generative Modeling on Limited Data with Regularization by
Nontransferable Pre-trained Models [32.52492468276371]
本稿では,限られたデータを用いた生成モデルの分散を低減するために,正規化深層生成モデル(Reg-DGM)を提案する。
Reg-DGMは、ある発散の重み付け和とエネルギー関数の期待を最適化するために、事前訓練されたモデルを使用する。
実験的に、様々な事前訓練された特徴抽出器とデータ依存エネルギー関数により、Reg-DGMはデータ制限のある強力なDGMの生成性能を一貫して改善する。
論文 参考訳(メタデータ) (2022-08-30T10:28:50Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Deep Autoencoding Topic Model with Scalable Hybrid Bayesian Inference [55.35176938713946]
我々は、ガンマ分布の階層構造を用いて、その多確率層生成ネットワークを構築するディープ・オートエンコーディング・トピック・モデル(DATM)を開発した。
Weibull上向き変分エンコーダを提案する。このエンコーダは深層ニューラルネットワークを介して情報を上向きに伝播し,次いで下向き生成モデルを提案する。
大規模コーパス上での教師なしおよび教師なしの学習タスクにおいて,モデルの有効性とスケーラビリティを実証した。
論文 参考訳(メタデータ) (2020-06-15T22:22:56Z) - Deep Latent-Variable Kernel Learning [25.356503463916816]
本稿では,潜在変数が正規化表現の符号化を行う完全潜時可変カーネル学習(DLVKL)モデルを提案する。
実験により、DLVKL-NSDEは、小さなデータセット上でよく校正されたGPと同様に動作し、大きなデータセット上で既存のディープGPより優れていることが示された。
論文 参考訳(メタデータ) (2020-05-18T05:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。