論文の概要: Stable Nonconvex-Nonconcave Training via Linear Interpolation
- arxiv url: http://arxiv.org/abs/2310.13459v3
- Date: Tue, 20 Feb 2024 15:31:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 20:26:00.358561
- Title: Stable Nonconvex-Nonconcave Training via Linear Interpolation
- Title(参考訳): 線形補間による安定な非凸非凹トレーニング
- Authors: Thomas Pethick, Wanyun Xie, Volkan Cevher
- Abstract要約: 本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
- 参考スコア(独自算出の注目度): 58.06971354141625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a theoretical analysis of linear interpolation as a
principled method for stabilizing (large-scale) neural network training. We
argue that instabilities in the optimization process are often caused by the
nonmonotonicity of the loss landscape and show how linear interpolation can
help by leveraging the theory of nonexpansive operators. We construct a new
optimization scheme called relaxed approximate proximal point (RAPP), which is
the first explicit method without anchoring to achieve last iterate convergence
rates for $\rho$-comonotone problems while only requiring $\rho >
-\tfrac{1}{2L}$. The construction extends to constrained and regularized
settings. By replacing the inner optimizer in RAPP we rediscover the family of
Lookahead algorithms for which we establish convergence in cohypomonotone
problems even when the base optimizer is taken to be gradient descent ascent.
The range of cohypomonotone problems in which Lookahead converges is further
expanded by exploiting that Lookahead inherits the properties of the base
optimizer. We corroborate the results with experiments on generative
adversarial networks which demonstrates the benefits of the linear
interpolation present in both RAPP and Lookahead.
- Abstract(参考訳): 本稿では,線形補間理論をニューラルネットワークトレーニングの安定化(大規模)のための原理的手法として提案する。
最適化過程の不安定性はロスランドスケープの非単調性によってしばしば引き起こされ、線形補間が非拡大作用素の理論を活用してどのように役立つかを示す。
緩和近似近点 (RAPP) と呼ばれる新しい最適化手法を構築し、これは、$\rho > -\tfrac{1}{2L}$のみを必要としながら、$\rho$-comonotone問題に対する最後の反復収束率を達成できない最初の明示的手法である。
構成は制約付きおよび規則化された設定にまで拡張される。
RAPPにおける内部オプティマイザを置き換えることで、基底オプティマイザが勾配勾配勾配の上昇であるとしても、コヒポモノトン問題の収束を確立するLookaheadアルゴリズムの族を再発見する。
lookaheadが収束するコヒポモノトン問題の範囲は、lookaheadがベースオプティマイザの特性を継承することを利用してさらに拡大される。
RAPPとLookaheadの両方に存在する線形補間による利点を実証する、生成的対向ネットワークの実験で結果を裏付ける。
関連論文リスト
- Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T10:19:27Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Implicit Bias and Fast Convergence Rates for Self-attention [30.08303212679308]
トランスフォーマーのコアメカニズムであるセルフアテンションは、従来のニューラルネットワークと区別し、その優れたパフォーマンスを駆動する。
固定線形復号器をバイナリに固定した自己アテンション層をトレーニングする際の勾配降下(GD)の暗黙バイアスについて検討した。
W_t$ から $W_mm$ に対する最初の有限時間収束率と、注意写像のスペーサー化率を提供する。
論文 参考訳(メタデータ) (2024-02-08T15:15:09Z) - Implicit regularization in AI meets generalized hardness of
approximation in optimization -- Sharp results for diagonal linear networks [0.0]
直交線形ネットワークの勾配流による暗黙の正規化について, 鋭い結果を示す。
これを近似の一般化硬度における相転移現象と関連付ける。
結果の非シャープ性は、基礎追従最適化問題に対して、GHA現象が起こらないことを意味する。
論文 参考訳(メタデータ) (2023-07-13T13:27:51Z) - Implicit Regularization for Group Sparsity [33.487964460794764]
正方形回帰損失に対する勾配勾配は, 明示的な正則化を伴わずに, 群間隔構造を持つ解に偏りを示す。
一般雑音設定における回帰問題の勾配ダイナミクスを解析し,最小最適誤差率を求める。
サイズ 1 群の退化の場合、我々の手法は疎線形回帰の新しいアルゴリズムを生み出す。
論文 参考訳(メタデータ) (2023-01-29T20:54:03Z) - Fast Convex Optimization for Two-Layer ReLU Networks: Equivalent Model
Classes and Cone Decompositions [41.337814204665364]
ReLUアクティベーション機能を持つ2層ニューラルネットワークの凸最適化アルゴリズムを開発した。
凸ゲート型ReLUモデルでは,ReLUトレーニング問題に対するデータ依存の近似バウンダリが得られることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:50:53Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。