論文の概要: GOALS: Gradient-Only Approximations for Line Searches Towards Robust and
Consistent Training of Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2105.10915v1
- Date: Sun, 23 May 2021 11:21:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 15:28:32.404945
- Title: GOALS: Gradient-Only Approximations for Line Searches Towards Robust and
Consistent Training of Deep Neural Networks
- Title(参考訳): 目標:深層ニューラルネットワークのロバストかつ一貫性のあるトレーニングに向けた線探索のための勾配のみ近似
- Authors: Younghwan Chae, Daniel N. Wilke, Dominic Kafka
- Abstract要約: ミニバッチサブサンプリング(MBSS)は、計算コストを削減するために、ディープニューラルネットワークトレーニングで好まれる。
最適性基準が定義された強い収束特性を持つ勾配限定近似線探索(GOALS)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mini-batch sub-sampling (MBSS) is favored in deep neural network training to
reduce the computational cost. Still, it introduces an inherent sampling error,
making the selection of appropriate learning rates challenging. The sampling
errors can manifest either as a bias or variances in a line search. Dynamic
MBSS re-samples a mini-batch at every function evaluation. Hence, dynamic MBSS
results in point-wise discontinuous loss functions with smaller bias but larger
variance than static sampled loss functions. However, dynamic MBSS has the
advantage of having larger data throughput during training but requires the
complexity regarding discontinuities to be resolved. This study extends the
gradient-only surrogate (GOS), a line search method using quadratic
approximation models built with only directional derivative information, for
dynamic MBSS loss functions. We propose a gradient-only approximation line
search (GOALS) with strong convergence characteristics with defined optimality
criterion. We investigate GOALS's performance by applying it on various
optimizers that include SGD, RMSprop and Adam on ResNet-18 and EfficientNetB0.
We also compare GOALS's against the other existing learning rate methods. We
quantify both the best performing and most robust algorithms. For the latter,
we introduce a relative robust criterion that allows us to quantify the
difference between an algorithm and the best performing algorithm for a given
problem. The results show that training a model with the recommended learning
rate for a class of search directions helps to reduce the model errors in
multimodal cases.
- Abstract(参考訳): ミニバッチサブサンプリング(MBSS)は、計算コストを削減するために、ディープニューラルネットワークトレーニングで好まれる。
それでも、固有のサンプリングエラーが導入され、適切な学習率の選択が難しくなる。
サンプリングエラーは、線探索においてバイアスまたはばらつきとして現れる。
動的MBSSは機能評価毎にミニバッチを再サンプリングする。
したがって、動的mbssは、静的サンプル損失関数よりもバイアスが小さいが分散が大きい点的不連続損失関数をもたらす。
しかし、動的MBSSはトレーニング中にデータスループットが大きくなるという利点があるが、不連続性に関する複雑さが解決される必要がある。
本研究は,方向微分情報のみを用いた2次近似モデルを用いたラインサーチ手法である勾配専用サロゲート(GOS)を動的MBSS損失関数に拡張する。
最適性基準を定め,強い収束特性を持つ勾配のみ近似線探索(goals)を提案する。
本稿では,SGD,RMSprop,Adam on ResNet-18,EfficientNetB0などの最適化器にGOALSの性能を適用して検討する。
また,GOALSを既存の学習率法と比較した。
最高のパフォーマンスと最も堅牢なアルゴリズムの両方を定量化します。
後者については,与えられた問題に対するアルゴリズムと最適なアルゴリズムの違いを定量化する相対的ロバストな基準を導入する。
その結果、探索方向のクラスに対して推奨学習率でモデルをトレーニングすることは、マルチモーダルケースにおけるモデルエラーを低減するのに役立つことがわかった。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Bayes-optimal learning of an extensive-width neural network from quadratically many samples [28.315491743569897]
本研究では,単一層ニューラルネットワークに対応する対象関数を学習する問題を考察する。
入力次元とネットワーク幅が比例的に大きい限界を考える。
論文 参考訳(メタデータ) (2024-08-07T12:41:56Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Training Artificial Neural Networks by Coordinate Search Algorithm [0.20971479389679332]
本稿では、ニューラルネットワークのトレーニングのための勾配自由座標探索(CS)アルゴリズムの効率的なバージョンを提案する。
提案アルゴリズムは、微分不可能なアクティベーション関数で使用することができ、多目的/マルチロス問題に適合する。
ANNの重みに対する最適値を求めることは、大規模な最適化問題である。
論文 参考訳(メタデータ) (2024-02-20T01:47:25Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Least Squares Regression with Markovian Data: Fundamental Limits and
Algorithms [69.45237691598774]
マルコフ連鎖からデータポイントが依存しサンプリングされる最小二乗線形回帰問題について検討する。
この問題を$tau_mathsfmix$という観点から、鋭い情報理論のミニマックス下限を確立する。
本稿では,経験的リプレイに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T04:26:50Z) - Distributionally Robust Weighted $k$-Nearest Neighbors [21.537952410507483]
少数のサンプルから堅牢な分類器を学ぶことは、マシンラーニングにおける重要な課題である。
本稿では, 重み付き$k$-アネレスト近傍のミニマックス分布に頑健な定式化について検討する。
我々は,この関数最適化問題を効率的に解くアルゴリズムである textttDr.k-NN を開発した。
論文 参考訳(メタデータ) (2020-06-07T00:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。