論文の概要: Bandwidth-based Step-Sizes for Non-Convex Stochastic Optimization
- arxiv url: http://arxiv.org/abs/2106.02888v1
- Date: Sat, 5 Jun 2021 13:12:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 17:36:34.398581
- Title: Bandwidth-based Step-Sizes for Non-Convex Stochastic Optimization
- Title(参考訳): 非凸確率最適化のための帯域幅ベースステップサイズ
- Authors: Xiaoyu Wang and Mikael Johansson
- Abstract要約: 帯域幅に基づくステップサイズネットワークの収束保証を導出する。
運動量変動(SGDM)は帯域幅ベースのステップサイズでSGDに匹敵する速さで訓練されることを示す。
- 参考スコア(独自算出の注目度): 31.930675913174746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many popular learning-rate schedules for deep neural networks combine a
decaying trend with local perturbations that attempt to escape saddle points
and bad local minima. We derive convergence guarantees for bandwidth-based
step-sizes, a general class of learning-rates that are allowed to vary in a
banded region. This framework includes cyclic and non-monotonic step-sizes for
which no theoretical guarantees were previously known. We provide worst-case
guarantees for SGD on smooth non-convex problems under several bandwidth-based
step sizes, including stagewise $1/\sqrt{t}$ and the popular step-decay
(constant and then drop by a constant), which is also shown to be optimal.
Moreover, we show that its momentum variant (SGDM) converges as fast as SGD
with the bandwidth-based step-decay step-size. Finally, we propose some novel
step-size schemes in the bandwidth-based family and verify their efficiency on
several deep neural network training tasks.
- Abstract(参考訳): ディープニューラルネットワークのための多くの一般的な学習速度スケジュールは、サドルポイントや悪いローカルミニマから逃れようとする局所摂動と崩壊傾向を結合している。
帯域幅に基づくステップサイズ(バンド幅領域で変化する学習率の一般的なクラス)の収束保証を導出する。
この枠組みには、これまで理論的な保証が知られていなかった周期的および非単調なステップサイズが含まれる。
我々は,SGDのスムーズな非凸問題に対して,段階的に1/\sqrt{t}$と一般的なステップデカイ(定数および定数で減少)を含む,複数の帯域幅ベースのステップサイズで保証する。
さらに、その運動量変動(SGDM)は、帯域幅ベースのステップデカイステップサイズとSGDと同等の速度で収束することを示す。
最後に、帯域幅に基づくファミリーにおいて、いくつかの新しいステップサイズスキームを提案し、その効率を深層ニューラルネットワークトレーニングタスクで検証する。
関連論文リスト
- Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z) - Efficient Stitchable Task Adaptation [47.94819192325723]
そこで本研究では,高度調整型モデルのパレットを効率よく作成するための新しいフレームワークであるEfficient Stitchable Task Adaptation (ESTA)を提案する。
具体的には、縫合物間で低ランク更新を共有するために、パラメータ効率の高いファインチューニングを第1に調整する。
簡単なが効果的なワンステージデプロイメントパイプラインを合理化し、デプロイすべき重要な縫合を見積もる。
論文 参考訳(メタデータ) (2023-11-29T04:31:35Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Hierarchical Federated Learning in Wireless Networks: Pruning Tackles Bandwidth Scarcity and System Heterogeneity [32.321021292376315]
我々はヘテロジニアスネットワーク(HetNets)におけるプルーニング可能な階層型フェデレーションラーニング(PHFL)を提案する。
まず、モデルプルーニングと無線通信の影響を明確に示す収束率の上限を導出する。
提案するPHFLアルゴリズムの有効性を,テスト精度,壁面時計時間,エネルギー消費,帯域幅要件の観点から検証した。
論文 参考訳(メタデータ) (2023-08-03T07:03:33Z) - STORM+: Fully Adaptive SGD with Momentum for Nonconvex Optimization [74.1615979057429]
本研究では,スムーズな損失関数に対する期待値である非バッチ最適化問題について検討する。
我々の研究は、学習率と運動量パラメータを適応的に設定する新しいアプローチとともに、STORMアルゴリズムの上に構築されている。
論文 参考訳(メタデータ) (2021-11-01T15:43:36Z) - Towards Noise-adaptive, Problem-adaptive Stochastic Gradient Descent [7.176107039687231]
雑音に対して勾配降下(SGD)を適応させるステップサイズスキームを設計する。
我々は、Nesterov反復によるSGDの$T$反復がほぼ最適であることを示す。
他のステップサイズスキームと比較して、新しい指数的なステップサイズスキームの有効性を実証する。
論文 参考訳(メタデータ) (2021-10-21T19:22:14Z) - On The Verification of Neural ODEs with Stochastic Guarantees [14.490826225393096]
時間連続型ニューラルネットワークの新興クラスであるneural odesは,グローバル最適化問題の集合を解いて検証できることを示す。
密なReachtubeを構築するための抽象化ベースのテクニックであるLagran Reachability(SLR)を紹介する。
論文 参考訳(メタデータ) (2020-12-16T11:04:34Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。