論文の概要: Painless step size adaptation for SGD
- arxiv url: http://arxiv.org/abs/2102.00853v1
- Date: Mon, 1 Feb 2021 14:05:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 10:08:51.456558
- Title: Painless step size adaptation for SGD
- Title(参考訳): SGDのための無痛ステップサイズ適応
- Authors: Ilona Kulikovskikh and Tarzan Legovi\'c
- Abstract要約: 収束と一般化は、ニューラルネットワークのパフォーマンスの重要な側面である。
テストの収束と一般化を明示的に規定する4つの構成を持つLIGHT関数を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convergence and generalization are two crucial aspects of performance in
neural networks. When analyzed separately, these properties may lead to
contradictory results. Optimizing a convergence rate yields fast training, but
does not guarantee the best generalization error. To avoid the conflict, recent
studies suggest adopting a moderately large step size for optimizers, but the
added value on the performance remains unclear. We propose the LIGHT function
with the four configurations which regulate explicitly an improvement in
convergence and generalization on testing. This contribution allows to: 1)
improve both convergence and generalization of neural networks with no need to
guarantee their stability; 2) build more reliable and explainable network
architectures with no need for overparameterization. We refer to it as
"painless" step size adaptation.
- Abstract(参考訳): 収束と一般化は、ニューラルネットワークのパフォーマンスの2つの重要な側面である。
別々に解析すると、これらの性質は矛盾する結果をもたらす可能性がある。
収束率の最適化は高速なトレーニングをもたらすが、最良の一般化誤差を保証しない。
対立を避けるため、最近の研究では、オプティマイザに適度に大きなステップサイズを採用することを提案しているが、パフォーマンスに付加価値は未定である。
テストの収束と一般化の改善を明示的に制御する4つの構成でLIGHT関数を提案します。
1) ニューラルネットワークの安定性を保証せずに、収束性と一般化の両方を改善すること、2) 過剰なパラメータ化を必要とせずに、より信頼性が高く説明可能なネットワークアーキテクチャを構築すること。
私たちはそれを「痛みのない」ステップサイズの適応と呼びます。
関連論文リスト
- Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T10:19:27Z) - Regularized Adaptive Momentum Dual Averaging with an Efficient Inexact Subproblem Solver for Training Structured Neural Network [9.48424754175943]
本稿では、構造化ニューラルネットワークのトレーニングのための正規化適応モーメントデュアル平均化(RAMDA)を提案する。
定常収束点における正則化器によって誘導される理想構造が得られることを示す。
大規模コンピュータビジョン、言語モデリング、音声タスクの実験では、提案されたRAMDAは効率的であり、構造化ニューラルネットワークのトレーニングのための技術よりも一貫して優れていることが示されている。
論文 参考訳(メタデータ) (2024-03-21T13:43:49Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Convergence of Adam for Non-convex Objectives: Relaxed Hyperparameters
and Non-ergodic Case [0.0]
本稿では,バニラ・アダムの収束と非エルゴード収束の課題について考察する。
これらの発見は、非ゴーディック最適化問題を解くために、Adamの確固たる理論基盤を構築する。
論文 参考訳(メタデータ) (2023-07-20T12:02:17Z) - Nest Your Adaptive Algorithm for Parameter-Agnostic Nonconvex Minimax
Optimization [24.784754071913255]
AdaGradやAMSのような適応アルゴリズムは、非特異なパラメータの堅牢性に成功している。
我々はNeAdaが最適に近いレベルの知識を実現できることを示す。
論文 参考訳(メタデータ) (2022-06-01T20:11:05Z) - Unified Convergence Analysis for Adaptive Optimization with Moving Average Estimator [75.05106948314956]
1次モーメントに対する大きな運動量パラメータの増大は適応的スケーリングに十分であることを示す。
また,段階的に減少するステップサイズに応じて,段階的に運動量を増加させるための洞察を与える。
論文 参考訳(メタデータ) (2021-04-30T08:50:24Z) - ADOM: Accelerated Decentralized Optimization Method for Time-Varying
Networks [124.33353902111939]
本稿では,時間変動ネットワーク上の滑らかかつ強凸分散最適化のための高速化手法である adom を提案する。
ネットワーク構造のみに依存する一定の要因まで、その通信は加速されたNesterovメソッドのそれと同じです。
論文 参考訳(メタデータ) (2021-02-18T09:37:20Z) - Global Optimization of Objective Functions Represented by ReLU Networks [77.55969359556032]
ニューラルネットワークは複雑で非敵対的な関数を学ぶことができ、安全クリティカルな文脈でそれらの正しい振る舞いを保証することは困難である。
ネットワーク内の障害を見つけるための多くのアプローチ(例えば、敵の例)があるが、これらは障害の欠如を保証できない。
本稿では,最適化プロセスを検証手順に統合し,本手法よりも優れた性能を実現する手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T08:19:48Z) - Efficient and Sparse Neural Networks by Pruning Weights in a
Multiobjective Learning Approach [0.0]
本稿では、予測精度とネットワーク複雑性を2つの個別目的関数として扱うことにより、ニューラルネットワークのトレーニングに関する多目的視点を提案する。
模範的畳み込みニューラルネットワークの予備的な数値結果から、ニューラルネットワークの複雑性の大幅な低減と精度の低下が可能であることが確認された。
論文 参考訳(メタデータ) (2020-08-31T13:28:03Z) - Regularized linear autoencoders recover the principal components,
eventually [15.090789983727335]
正規化を適切に訓練すると、線形オートエンコーダが最適な表現を学習できることが示される。
この収束は, 潜伏次元の増加に伴って悪化する条件条件が原因で遅くなることを示す。
勾配降下更新を簡易に修正し、経験的に大幅に高速化する。
論文 参考訳(メタデータ) (2020-07-13T23:08:25Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。