論文の概要: Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets
- arxiv url: http://arxiv.org/abs/1912.11940v2
- Date: Fri, 25 Dec 2020 02:17:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-10 07:49:34.073876
- Title: Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets
- Title(参考訳): 生成型逆ネットにおける適応勾配アルゴリズムの理解を深める
- Authors: Mingrui Liu, Youssef Mroueh, Jerret Ross, Wei Zhang, Xiaodong Cui,
Payel Das, Tianbao Yang
- Abstract要約: 適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
- 参考スコア(独自算出の注目度): 71.05306664267832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive gradient algorithms perform gradient-based updates using the history
of gradients and are ubiquitous in training deep neural networks. While
adaptive gradient methods theory is well understood for minimization problems,
the underlying factors driving their empirical success in min-max problems such
as GANs remain unclear. In this paper, we aim at bridging this gap from both
theoretical and empirical perspectives. First, we analyze a variant of
Optimistic Stochastic Gradient (OSG) proposed in~\citep{daskalakis2017training}
for solving a class of non-convex non-concave min-max problem and establish
$O(\epsilon^{-4})$ complexity for finding $\epsilon$-first-order stationary
point, in which the algorithm only requires invoking one stochastic first-order
oracle while enjoying state-of-the-art iteration complexity achieved by
stochastic extragradient method by~\citep{iusem2017extragradient}. Then we
propose an adaptive variant of OSG named Optimistic Adagrad (OAdagrad) and
reveal an \emph{improved} adaptive complexity
$O\left(\epsilon^{-\frac{2}{1-\alpha}}\right)$, where $\alpha$ characterizes
the growth rate of the cumulative stochastic gradient and $0\leq \alpha\leq
1/2$. To the best of our knowledge, this is the first work for establishing
adaptive complexity in non-convex non-concave min-max optimization.
Empirically, our experiments show that indeed adaptive gradient algorithms
outperform their non-adaptive counterparts in GAN training. Moreover, this
observation can be explained by the slow growth rate of the cumulative
stochastic gradient, as observed empirically.
- Abstract(参考訳): 適応勾配アルゴリズムは勾配の歴史を用いて勾配ベースの更新を行い、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
適応勾配法理論は最小化問題に対してよく理解されているが、GANのようなmin-max問題において実験的な成功を導く基礎的要因はいまだ不明である。
本稿では,このギャップを理論的および経験的視点から橋渡しすることを目的としている。
まず,非凸非凸min-max問題の解法として提案する楽観的確率勾配 (osg) の変種を解析し,-\citep{iusem2017extragradient} による確率的漸進法によって達成された段階的反復複雑性を享受しながら,確率的第一次オラクルを呼び出すことのみをアルゴリズムに要求する,$\epsilon$-first-order stationary point を求めるための$o(\epsilon^{-4})$ を定式化する。
次に、オプティスティック・アダグラード(OAdagrad)というOSGの適応的変種を提案し、適応的複雑性を$O\left(\epsilon^{-\frac{2}{1-\alpha}}\right)$で示し、$\alpha$は累積確率勾配の成長率と$0\leq \alpha\leq 1/2$を特徴付ける。
我々の知る限り、これは非凸なmin-max最適化における適応複雑性を確立するための最初の研究である。
実験の結果,適応性勾配アルゴリズムはGANトレーニングにおいて非適応性よりも優れていることがわかった。
さらに, この観測は, 累積確率勾配の緩やかな成長速度によって説明できる。
関連論文リスト
- An Accelerated Algorithm for Stochastic Bilevel Optimization under Unbounded Smoothness [15.656614304616006]
本稿では,上層関数が非非有界な滑らかさであり,下層関数が強く凸であるような二層最適化問題のクラスについて検討する。
これらの問題は、ニューラルネットワークを用いたテキスト分類など、データ学習に大きな応用がある。
論文 参考訳(メタデータ) (2024-09-28T02:30:44Z) - Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。
ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。
ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文 参考訳(メタデータ) (2024-08-17T02:22:08Z) - A Fast and Convergent Proximal Algorithm for Regularized Nonconvex and
Nonsmooth Bi-level Optimization [26.68351521813062]
既存のバイレベルアルゴリズムは、非滑らかまたは超滑らかな正規化器を扱えない。
本稿では,包括的機械学習アプリケーションを高速化するために,暗黙差分法(AID)が有効であることを示す。
論文 参考訳(メタデータ) (2022-03-30T18:53:04Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - Convergence of First-Order Methods for Constrained Nonconvex
Optimization with Dependent Data [7.513100214864646]
収束$tildeO(t-1/4)$とMoreautildeO(vareps-4)$がスムーズな非最適化のために最悪の場合の複雑性を示す。
適応的なステップサイズと最適収束度を持つ投影勾配法に基づく従属データに対する最初のオンライン非負行列分解アルゴリズムを得る。
論文 参考訳(メタデータ) (2022-03-29T17:59:10Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Adaptive Gradient Methods Can Be Provably Faster than SGD after Finite
Epochs [25.158203665218164]
適応勾配法は有限時間後にランダムシャッフルSGDよりも高速であることを示す。
我々の知る限り、適応的勾配法は有限時間後にSGDよりも高速であることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2020-06-12T09:39:47Z) - Convergence of adaptive algorithms for weakly convex constrained
optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。
我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文 参考訳(メタデータ) (2020-06-11T17:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。