論文の概要: A straightforward line search approach on the expected empirical loss
for stochastic deep learning problems
- arxiv url: http://arxiv.org/abs/2010.00921v1
- Date: Fri, 2 Oct 2020 11:04:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 00:39:41.779540
- Title: A straightforward line search approach on the expected empirical loss
for stochastic deep learning problems
- Title(参考訳): 確率的深層学習問題に対する予測経験的損失に対する直線探索法
- Authors: Maximus Mutschler and Andreas Zell
- Abstract要約: ディープラーニングのノイズによる経験的損失を期待して、適切なステップサイズを探すには、あまりにもコストがかかりすぎます。
本研究は, 深層学習タスクにおいて, 垂直断面における期待される経験損失を, かなり安価に近似できることを示唆している。
- 参考スコア(独自算出の注目度): 20.262526694346104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental challenge in deep learning is that the optimal step sizes for
update steps of stochastic gradient descent are unknown. In traditional
optimization, line searches are used to determine good step sizes, however, in
deep learning, it is too costly to search for good step sizes on the expected
empirical loss due to noisy losses. This empirical work shows that it is
possible to approximate the expected empirical loss on vertical cross sections
for common deep learning tasks considerably cheaply. This is achieved by
applying traditional one-dimensional function fitting to measured noisy losses
of such cross sections. The step to a minimum of the resulting approximation is
then used as step size for the optimization. This approach leads to a robust
and straightforward optimization method which performs well across datasets and
architectures without the need of hyperparameter tuning.
- Abstract(参考訳): 深層学習における根本的な課題は、確率勾配降下の更新ステップの最適ステップサイズが不明である点である。
従来の最適化では、行探索は良いステップサイズを決定するために使用されるが、ディープラーニングでは、ノイズによる期待された経験的損失について良いステップサイズを探索するにはコストがかかりすぎる。
この経験的研究は, 垂直断面における期待される経験的損失を, 極めて安価に近似できることを示唆している。
これは、従来の一次元関数をこれらの断面のノイズ損失の測定に適用することによって達成される。
得られた近似の最小値へのステップは最適化のステップサイズとして使用される。
このアプローチは、ハイパーパラメータチューニングを必要とせず、データセットやアーキテクチャ間でうまく機能する堅牢で簡単な最適化手法をもたらす。
関連論文リスト
- Training-set-free two-stage deep learning for spectroscopic data
de-noising [0.0]
ノイズ除去は、スペクトル後処理手順における顕著なステップである。
従来の機械学習ベースの手法は高速だが、主に教師付き学習に基づいている。
教師なしのアルゴリズムは遅く、実際の実験的な測定で一般的に高価なトレーニングセットを必要とする。
論文 参考訳(メタデータ) (2024-02-29T03:31:41Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - BOME! Bilevel Optimization Made Easy: A Simple First-Order Approach [46.457298683984924]
バイレベル最適化(BO)は、さまざまな機械学習問題を解決するのに有用である。
従来の手法では、暗黙の微分を伴う低レベル最適化プロセスを通じて差別化する必要がある。
一階BOは一階情報にのみ依存し、暗黙の微分を必要としない。
論文 参考訳(メタデータ) (2022-09-19T01:51:12Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Using a one dimensional parabolic model of the full-batch loss to
estimate learning rates during training [21.35522589789314]
本研究は,複数のミニバッチ上で推定されるパラボラを用いて全バッチ損失を近似する線探索手法を導入する。
実験では,SGDを一定間隔の学習スケジュールで調整し,そのほとんどはSGDよりも優れていた。
論文 参考訳(メタデータ) (2021-08-31T14:36:23Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。
特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。
我々はこれらの現象を具体的原理で補うと推測する。
論文 参考訳(メタデータ) (2021-03-16T16:26:36Z) - Low-Rank Robust Online Distance/Similarity Learning based on the
Rescaled Hinge Loss [0.34376560669160383]
既存のオンライン手法では、トレーニング三つ子やペアの制約が事前に存在すると仮定することが多い。
オンライン距離相似学習問題を,ロバストな再スケールヒンジ損失関数を用いて定式化する。
提案モデルは比較的汎用的で,任意のPAベースのオンラインディスタンス・シミュラリティアルゴリズムに適用可能である。
論文 参考訳(メタデータ) (2020-10-07T08:38:34Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Disentangling Adaptive Gradient Methods from Learning Rates [65.0397050979662]
適応的勾配法が学習率のスケジュールとどのように相互作用するかを、より深く検討する。
我々は、更新の規模をその方向から切り離す"グラフティング"実験を導入する。
適応勾配法の一般化に関する経験的および理論的考察を示す。
論文 参考訳(メタデータ) (2020-02-26T21:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。