論文の概要: Finite-Sum Optimization: A New Perspective for Convergence to a Global
Solution
- arxiv url: http://arxiv.org/abs/2202.03524v1
- Date: Mon, 7 Feb 2022 21:23:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 15:04:32.688674
- Title: Finite-Sum Optimization: A New Perspective for Convergence to a Global
Solution
- Title(参考訳): 有限和最適化:グローバルソリューションへの収束の新しい視点
- Authors: Lam M. Nguyen, Trang H. Tran, Marten van Dijk
- Abstract要約: ディープニューラルネットワーク(DNN)は多くの機械学習タスクで大きな成功を収めている。
彼らのトレーニングは、一般的に損失面は滑らかではないか、あるいは束縛されているため、難しい。
本稿では,$varepsilon$-(global)最小値への収束を最小化できるアルゴリズムフレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.016345507132808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) have shown great success in many machine learning
tasks. Their training is challenging since the loss surface of the network
architecture is generally non-convex, or even non-smooth. How and under what
assumptions is guaranteed convergence to a \textit{global} minimum possible? We
propose a reformulation of the minimization problem allowing for a new
recursive algorithmic framework. By using bounded style assumptions, we prove
convergence to an $\varepsilon$-(global) minimum using
$\mathcal{\tilde{O}}(1/\varepsilon^3)$ gradient computations. Our theoretical
foundation motivates further study, implementation, and optimization of the new
algorithmic framework and further investigation of its non-standard bounded
style assumptions. This new direction broadens our understanding of why and
under what circumstances training of a DNN converges to a global minimum.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は多くの機械学習タスクで大きな成功を収めている。
ネットワークアーキテクチャの損失面は一般に非凸あるいは非平滑であるため、トレーニングは難しい。
どんな仮定の下で、最小限のtextit{global} への収束が保証されるのか?
本稿では,新しい再帰的アルゴリズムフレームワークを可能にする最小化問題の再構成を提案する。
有界なスタイル仮定を用いることで、$\mathcal{\tilde{o}}(1/\varepsilon^3)$勾配計算を用いて、$\varepsilon$-(global)最小値への収束を証明する。
我々の理論的基礎は、新しいアルゴリズムフレームワークのさらなる研究、実装、最適化と、その非標準有界型仮定のさらなる研究を動機付けるものである。
この新たな方向は、DNNのトレーニングが世界最小限に収束する理由と状況に対する理解を広げます。
関連論文リスト
- Stable Minima Cannot Overfit in Univariate ReLU Networks: Generalization by Large Step Sizes [29.466981306355066]
固定学習率$eta$の勾配降下はスムーズな関数を表す局所最小値しか見つからないことを示す。
また、$n$のデータポイントのサポートの厳密な内部で、$widetildeO(n-4/5)$のほぼ最適MSE境界を証明します。
論文 参考訳(メタデータ) (2024-06-10T22:57:27Z) - Decentralized Riemannian Algorithm for Nonconvex Minimax Problems [82.50374560598493]
ニューラルネットワークのためのミニマックスアルゴリズムは、多くの問題を解決するために開発された。
本稿では,2種類のミニマックスアルゴリズムを提案する。
そこで我々は, DRSGDAを提案し, 本手法が勾配を達成することを証明した。
論文 参考訳(メタデータ) (2023-02-08T01:42:45Z) - When Expressivity Meets Trainability: Fewer than $n$ Neurons Can Work [59.29606307518154]
幅が$m geq 2n/d$($d$は入力次元)である限り、その表現性は強く、すなわち、訓練損失がゼロの少なくとも1つの大域最小化器が存在することを示す。
また、実現可能な領域がよい局所領域であるような制約付き最適化の定式化も検討し、すべてのKKT点がほぼ大域最小値であることを示す。
論文 参考訳(メタデータ) (2022-10-21T14:41:26Z) - An Inexact Augmented Lagrangian Algorithm for Training Leaky ReLU Neural
Network with Group Sparsity [13.27709100571336]
近年,グループ正規化期間を持つリーク型ReLUネットワークが広く利用されている。
定常点を決定論的に計算する手法が存在しないことを示す。
本稿では,新しいモデルを解くための不正確な拡張ラグランジアンアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-11T11:53:15Z) - DASHA: Distributed Nonconvex Optimization with Communication
Compression, Optimal Oracle Complexity, and No Client Synchronization [77.34726150561087]
我々は,分散最適化問題に対する新しい手法であるDASHAを開発し,解析する。
MARINAとは異なり、新しいDASHAとDASHA-MVRは圧縮ベクターのみを送信し、ノードを同期しないため、学習をより実用的なものにしている。
論文 参考訳(メタデータ) (2022-02-02T20:10:40Z) - Path Regularization: A Convexity and Sparsity Inducing Regularization
for Parallel ReLU Networks [75.33431791218302]
本稿では,ディープニューラルネットワークのトレーニング問題について検討し,最適化環境に隠された凸性を明らかにするための解析的アプローチを提案する。
我々は、標準のディープ・ネットワークとResNetを特別なケースとして含む、ディープ・パラレルなReLUネットワークアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:00:36Z) - A global convergence theory for deep ReLU implicit networks via
over-parameterization [26.19122384935622]
暗黙の深層学習は近年注目を集めている。
本稿では,Rectified Linear Unit (ReLU) 活性化暗黙的ニューラルネットワークの勾配流れを解析する。
論文 参考訳(メタデータ) (2021-10-11T23:22:50Z) - Efficient Methods for Structured Nonconvex-Nonconcave Min-Max
Optimization [98.0595480384208]
定常点に収束する一般化外空間を提案する。
このアルゴリズムは一般の$p$ノルド空間だけでなく、一般の$p$次元ベクトル空間にも適用される。
論文 参考訳(メタデータ) (2020-10-31T21:35:42Z) - Gradient Free Minimax Optimization: Variance Reduction and Faster
Convergence [120.9336529957224]
本稿では、勾配のないミニマックス最適化問題の大きさを非強設定で表現する。
本稿では,新しいゼロ階分散還元降下アルゴリズムが,クエリの複雑さを最もよく表すことを示す。
論文 参考訳(メタデータ) (2020-06-16T17:55:46Z) - Why Learning of Large-Scale Neural Networks Behaves Like Convex
Optimization [6.852561400929072]
非スケール最適化問題の解法として単純な勾配降下法が成功した理由を説明するための理論的研究について述べる。
NN学習の目的関数が標準モデル空間の凸であることを示す。
論文 参考訳(メタデータ) (2019-03-06T02:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。