論文の概要: Convergence and Sample Complexity of SGD in GANs
- arxiv url: http://arxiv.org/abs/2012.00732v1
- Date: Tue, 1 Dec 2020 18:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-30 19:26:48.591634
- Title: Convergence and Sample Complexity of SGD in GANs
- Title(参考訳): GANにおけるSGDの収束と試料複合体
- Authors: Vasilis Kontonis, Sihan Liu, Christos Tzamos
- Abstract要約: SGDによるGAN(Generative Adversarial Networks)のトレーニングにおける収束保証を提供する。
我々は,非線形アクティベーション機能を持つ1層ジェネレータネットワークによってモデル化されたターゲット分布の学習を検討する。
この結果は、ReLUを含む幅広い非線形アクティベーション関数 $phi$ に適用され、切り離された統計との接続によって実現される。
- 参考スコア(独自算出の注目度): 15.25030172685628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide theoretical convergence guarantees on training Generative
Adversarial Networks (GANs) via SGD. We consider learning a target distribution
modeled by a 1-layer Generator network with a non-linear activation function
$\phi(\cdot)$ parametrized by a $d \times d$ weight matrix $\mathbf W_*$, i.e.,
$f_*(\mathbf x) = \phi(\mathbf W_* \mathbf x)$.
Our main result is that by training the Generator together with a
Discriminator according to the Stochastic Gradient Descent-Ascent iteration
proposed by Goodfellow et al. yields a Generator distribution that approaches
the target distribution of $f_*$. Specifically, we can learn the target
distribution within total-variation distance $\epsilon$ using $\tilde
O(d^2/\epsilon^2)$ samples which is (near-)information theoretically optimal.
Our results apply to a broad class of non-linear activation functions $\phi$,
including ReLUs and is enabled by a connection with truncated statistics and an
appropriate design of the Discriminator network. Our approach relies on a
bilevel optimization framework to show that vanilla SGDA works.
- Abstract(参考訳): SGDによるGAN(Generative Adversarial Networks)のトレーニングに関する理論的収束保証を提供する。
非線形活性化関数 $\phi(\cdot)$ を持つ1層生成ネットワークによってモデル化された対象分布の学習を、$d \times d$ weight matrix $\mathbf w_*$,すなわち $f_*(\mathbf x) = \phi(\mathbf w_* \mathbf x)$ でパラメトリライズする。
我々の主な成果は、Goodfellowらによって提案された確率的勾配降下-上昇反復に基づいて、ジェネレータを識別器と共に訓練することである。
は$f_*$のターゲット分布に近づくジェネレータ分布を生成する。
具体的には、(ほぼ)情報論的に最適である$\tilde O(d^2/\epsilon^2)$サンプルを用いて、全変量距離$\epsilon$内のターゲット分布を学習することができる。
本研究は,relusを含む非線形活性化関数 $\phi$ の幅広いクラスに適用され,切断統計と識別器ネットワークの適切な設計との接続により実現される。
我々のアプローチは、バニラSGDAが機能することを示すために、双方向最適化フレームワークに依存しています。
関連論文リスト
- Idempotent Generative Network [61.78905138698094]
本稿では,ニューラルネットワークを等質にトレーニングした生成モデリングのための新しい手法を提案する。
一等演算子は、初期アプリケーションを超えて結果を変更せずに順次適用できる演算子である。
ターゲット分布とソース分布の両方からの入力を処理することにより、モデルがターゲット多様体に完全に破損または修正されたデータを投影することがわかった。
論文 参考訳(メタデータ) (2023-11-02T17:59:55Z) - Addressing GAN Training Instabilities via Tunable Classification Losses [8.151943266391493]
GAN(Generative Adversarial Network)は、形式的な保証付き合成データを生成する。
すべての対称$f$-発散は収束において同値であることを示す。
また,合成2次元ガウス混合環のトレーニング不安定性を緩和するために,$(alpha_D,alpha_G)$のチューニング値も強調する。
論文 参考訳(メタデータ) (2023-10-27T17:29:07Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - $(\alpha_D,\alpha_G)$-GANs: Addressing GAN Training Instabilities via
Dual Objectives [7.493779672689531]
生成器(G)と識別器(D)に異なる値関数(対象物)を持つ2目的GANのクラスを導入する。
結果のゼロでない和ゲームは、$(alpha_D,alpha_G)$の適切な条件下での$f$-divergenceを最小化する。
合成2次元ガウス混合環とスタックドMNISTデータセットのトレーニング不安定性を緩和するために, チューニング $(alpha_D,alpha_G)$ の値を強調した。
論文 参考訳(メタデータ) (2023-02-28T05:22:54Z) - Stochastic Approximation Approaches to Group Distributionally Robust
Optimization [96.26317627118912]
群分散ロバスト最適化(GDRO)
オンライン学習技術は、各ラウンドに必要なサンプル数をm$から1$に減らし、同じサンプルを保持する。
分布依存収束率を導出できる重み付きGDROの新規な定式化。
論文 参考訳(メタデータ) (2023-02-18T09:24:15Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - Why Are Convolutional Nets More Sample-Efficient than Fully-Connected
Nets? [33.51250867983687]
標準学習アルゴリズムにおいて、証明可能なサンプル複雑性のギャップを示すことができる自然なタスクを示す。
単一の対象関数を示し、可能なすべての分布について、$O(1)$対$Omega(d2/varepsilon)$ギャップを学習する。
同様の結果が$ell$回帰およびAdamやAdaGradといった適応型トレーニングアルゴリズムに対して達成される。
論文 参考訳(メタデータ) (2020-10-16T17:15:39Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。