論文の概要: AdaLoss: A computationally-efficient and provably convergent adaptive
gradient method
- arxiv url: http://arxiv.org/abs/2109.08282v1
- Date: Fri, 17 Sep 2021 01:45:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 14:48:30.440552
- Title: AdaLoss: A computationally-efficient and provably convergent adaptive
gradient method
- Title(参考訳): AdaLoss: 計算効率が高く、確率収束性適応勾配法
- Authors: Xiaoxia Wu and Yuege Xie and Simon Du and Rachel Ward
- Abstract要約: 本稿では,損失関数の情報を用いて数値的な調整を行う,計算に親しみやすい学習スケジュール"AnomidaLoss"を提案する。
テキストおよび制御問題に対するLSTMモデルの適用による数値実験の範囲の検証を行う。
- 参考スコア(独自算出の注目度): 7.856998585396422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a computationally-friendly adaptive learning rate schedule,
"AdaLoss", which directly uses the information of the loss function to adjust
the stepsize in gradient descent methods. We prove that this schedule enjoys
linear convergence in linear regression. Moreover, we provide a linear
convergence guarantee over the non-convex regime, in the context of two-layer
over-parameterized neural networks. If the width of the first-hidden layer in
the two-layer networks is sufficiently large (polynomially), then AdaLoss
converges robustly \emph{to the global minimum} in polynomial time. We
numerically verify the theoretical results and extend the scope of the
numerical experiments by considering applications in LSTM models for text
clarification and policy gradients for control problems.
- Abstract(参考訳): 本研究では,勾配降下法において,損失関数の情報を直接利用してステップを調整できる適応学習率スケジュール「adaloss」を提案する。
我々はこのスケジュールが線形回帰の線形収束を楽しむことを証明した。
さらに,2層超パラメータニューラルネットワークの文脈において,非凸状態に対する線形収束保証を提供する。
2層ネットワークの第一隠れ層の幅が十分に大きい場合(多項的に)、アダロスは多項式時間でロバストに \emph{to the global minimum} 収束する。
LSTMモデルによるテキストの明確化と制御問題へのポリシー勾配の適用を考慮し,理論的結果を数値的に検証し,数値実験の範囲を広げる。
関連論文リスト
- Hybrid Coordinate Descent for Efficient Neural Network Learning Using Line Search and Gradient Descent [3.8936716676293917]
本稿では,2乗誤差損失関数に対する新しい座標降下アルゴリズムを提案する。
各パラメータは、線探索法または勾配法によって決定された更新を行う。
その並列化性は計算時間の短縮を促進する。
論文 参考訳(メタデータ) (2024-08-02T16:29:54Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Aiming towards the minimizers: fast convergence of SGD for
overparametrized problems [25.077446336619378]
本稿では,勾配法と同一のケース複雑性を有する勾配法を提案する。
既存の保証は全て勾配法で小さなステップを踏む必要があり、結果として収束速度ははるかに遅くなる。
我々は,線形出力層を用いた十分に広いフィードフォワードニューラルネットワークのトレーニングにおいて,この条件が成り立つことを実証した。
論文 参考訳(メタデータ) (2023-06-05T05:21:01Z) - Constrained Optimization via Exact Augmented Lagrangian and Randomized
Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。
ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-28T06:33:37Z) - Fast Convergence in Learning Two-Layer Neural Networks with Separable
Data [37.908159361149835]
2層ニューラルネット上の正規化勾配勾配について検討した。
正規化GDを用いてトレーニング損失の線形収束率を大域的最適に導くことを証明する。
論文 参考訳(メタデータ) (2023-05-22T20:30:10Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Improved Overparametrization Bounds for Global Convergence of Stochastic
Gradient Descent for Shallow Neural Networks [1.14219428942199]
本研究では,1つの隠れ層フィードフォワードニューラルネットワークのクラスに対して,勾配降下アルゴリズムのグローバル収束に必要な過パラメトリゼーション境界について検討する。
論文 参考訳(メタデータ) (2022-01-28T11:30:06Z) - The Implicit Bias of Gradient Descent on Separable Data [44.98410310356165]
予測器は最大マージン(シャープマージンSVM)解の方向へ収束することを示す。
これは、トレーニングエラーがゼロになった後もロジスティックまたはクロスエントロピー損失を最適化し続ける利点を説明するのに役立つ。
論文 参考訳(メタデータ) (2017-10-27T21:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。