論文の概要: Using a one dimensional parabolic model of the full-batch loss to
estimate learning rates during training
- arxiv url: http://arxiv.org/abs/2108.13880v1
- Date: Tue, 31 Aug 2021 14:36:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-01 14:26:34.555933
- Title: Using a one dimensional parabolic model of the full-batch loss to
estimate learning rates during training
- Title(参考訳): フルバッチ損失の1次元パラボラモデルを用いてトレーニング中の学習率を推定する
- Authors: Maximus Mutschler and Andreas Zell
- Abstract要約: 本研究は,複数のミニバッチ上で推定されるパラボラを用いて全バッチ損失を近似する線探索手法を導入する。
実験では,SGDを一定間隔の学習スケジュールで調整し,そのほとんどはSGDよりも優れていた。
- 参考スコア(独自算出の注目度): 21.35522589789314
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A fundamental challenge in Deep Learning is to find optimal step sizes for
stochastic gradient descent. In traditional optimization, line searches are a
commonly used method to determine step sizes. One problem in Deep Learning is
that finding appropriate step sizes on the full-batch loss is unfeasible
expensive. Therefore, classical line search approaches, designed for losses
without inherent noise, are usually not applicable. Recent empirical findings
suggest that the full-batch loss behaves locally parabolically in the direction
of noisy update step directions. Furthermore, the trend of the optimal update
step size is changing slowly. By exploiting these findings, this work
introduces a line-search method that approximates the full-batch loss with a
parabola estimated over several mini-batches. Learning rates are derived from
such parabolas during training. In the experiments conducted, our approach
mostly outperforms SGD tuned with a piece-wise constant learning rate schedule
and other line search approaches for Deep Learning across models, datasets, and
batch sizes on validation and test accuracy.
- Abstract(参考訳): 深層学習における基本的な課題は、確率的勾配降下の最適なステップサイズを見つけることである。
従来の最適化では、行検索はステップサイズを決定するためによく使われる方法である。
ディープラーニングの1つの問題は、フルバッチ損失の適切なステップサイズを見つけることは不可能なコストである。
したがって、本質的なノイズのない損失を想定した古典的な線探索アプローチは、通常は適用されない。
近年の実証研究によれば、全バッチ損失は、ノイズの多い更新ステップ方向の方向に局所的に寄生的に振る舞う。
さらに、最適な更新ステップサイズの動向はゆっくりと変化している。
これらの知見を生かして,複数のミニバッチで推定されるパラボラを用いて全バッチ損失を近似する線探索手法を提案する。
学習率は、トレーニング中にそのようなパラボラに由来する。
実験では,モデル,データセット,バッチサイズをまたいだ検証とテストの精度について,sgdを部分的に一定の学習率のスケジュールで調整し,他のライン探索法と比較した。
関連論文リスト
- Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Fighting Uncertainty with Gradients: Offline Reinforcement Learning via
Diffusion Score Matching [22.461036967440723]
我々は不確実性指標としてデータへのスムーズな距離について検討し、2つの有益な性質を持つと主張している。
スコアマッチング技術を用いて,これらの勾配を効率的に学習できることを示す。
本研究では,高次元問題における一階計画を実現するためのスコアガイドプランニング(SGP)を提案する。
論文 参考訳(メタデータ) (2023-06-24T23:40:58Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - One-Pass Learning via Bridging Orthogonal Gradient Descent and Recursive
Least-Squares [8.443742714362521]
我々は,従来のデータポイントの予測にほとんど変化しない方向にパラメータを変更しながら,すべての新しいデータポイントに完全に適合するワンパス学習アルゴリズムを開発した。
我々のアルゴリズムは、インクリメンタル・プリンシパル・コンポーネント分析(IPCA)を用いてストリーミングデータの構造を利用して、メモリを効率的に利用する。
本実験では,提案手法の有効性をベースラインと比較した。
論文 参考訳(メタデータ) (2022-07-28T02:01:31Z) - Accelerating Deep Learning with Dynamic Data Pruning [0.0]
ディープラーニングは、最先端のネットワークをトレーニングするために強力なコンピューティングシステムへのアクセスを必要とするため、違法にコストがかかるようになった。
forget scoresやGraNd/EL2N scoresといった以前の作業では、完全なデータセット内の重要なサンプルを特定し、残りのサンプルを刈り取ることで、エポック毎のイテレーションを減らすことができる。
本稿では,強化学習手法に基づく2つのアルゴリズムを提案し,ランダムな動的手法よりも高い精度でサンプルを動的にプーンする。
論文 参考訳(メタデータ) (2021-11-24T16:47:34Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Low-Rank Robust Online Distance/Similarity Learning based on the
Rescaled Hinge Loss [0.34376560669160383]
既存のオンライン手法では、トレーニング三つ子やペアの制約が事前に存在すると仮定することが多い。
オンライン距離相似学習問題を,ロバストな再スケールヒンジ損失関数を用いて定式化する。
提案モデルは比較的汎用的で,任意のPAベースのオンラインディスタンス・シミュラリティアルゴリズムに適用可能である。
論文 参考訳(メタデータ) (2020-10-07T08:38:34Z) - A straightforward line search approach on the expected empirical loss
for stochastic deep learning problems [20.262526694346104]
ディープラーニングのノイズによる経験的損失を期待して、適切なステップサイズを探すには、あまりにもコストがかかりすぎます。
本研究は, 深層学習タスクにおいて, 垂直断面における期待される経験損失を, かなり安価に近似できることを示唆している。
論文 参考訳(メタデータ) (2020-10-02T11:04:02Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Regularizing Meta-Learning via Gradient Dropout [102.29924160341572]
メタ学習モデルは、メタ学習者が一般化するのに十分なトレーニングタスクがない場合、過度に適合する傾向がある。
本稿では,勾配に基づくメタ学習において過度に適合するリスクを軽減するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2020-04-13T10:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。