論文の概要: The Unreasonable Effectiveness Of Early Discarding After One Epoch In Neural Network Hyperparameter Optimization
- arxiv url: http://arxiv.org/abs/2404.04111v1
- Date: Fri, 5 Apr 2024 14:08:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 15:55:28.111663
- Title: The Unreasonable Effectiveness Of Early Discarding After One Epoch In Neural Network Hyperparameter Optimization
- Title(参考訳): ニューラルネットハイパーパラメータ最適化における1Epoch後の早期発見の有効性
- Authors: Romain Egele, Felix Mohr, Tom Viering, Prasanna Balaprakash,
- Abstract要約: 廃棄の積極性と予測性能の損失とのトレードオフについて検討する。
このアプローチをi-Epoch(ニューラルネットワークをトレーニングするエポックの定数)と呼び、早期破棄技術の品質を評価することを提案する。
- 参考スコア(独自算出の注目度): 10.93405937763835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To reach high performance with deep learning, hyperparameter optimization (HPO) is essential. This process is usually time-consuming due to costly evaluations of neural networks. Early discarding techniques limit the resources granted to unpromising candidates by observing the empirical learning curves and canceling neural network training as soon as the lack of competitiveness of a candidate becomes evident. Despite two decades of research, little is understood about the trade-off between the aggressiveness of discarding and the loss of predictive performance. Our paper studies this trade-off for several commonly used discarding techniques such as successive halving and learning curve extrapolation. Our surprising finding is that these commonly used techniques offer minimal to no added value compared to the simple strategy of discarding after a constant number of epochs of training. The chosen number of epochs depends mostly on the available compute budget. We call this approach i-Epoch (i being the constant number of epochs with which neural networks are trained) and suggest to assess the quality of early discarding techniques by comparing how their Pareto-Front (in consumed training epochs and predictive performance) complement the Pareto-Front of i-Epoch.
- Abstract(参考訳): ディープラーニングで高いパフォーマンスを達成するためには、ハイパーパラメータ最適化(HPO)が不可欠である。
このプロセスは通常、ニューラルネットワークの高価な評価のために時間を要する。
早期廃棄技術は、実証学習曲線を観察し、候補者の競争力の欠如が明らかになると、ニューラルネットワークのトレーニングをキャンセルすることで、未証明の候補者に与えられるリソースを制限する。
20年にわたる研究にもかかわらず、廃棄の積極性と予測性能の喪失との間のトレードオフについてはほとんど理解されていない。
本研究は, 連続半減算や学習曲線外挿など, 広く使われている廃棄技術とのトレードオフについて考察する。
意外な発見は、これらの一般的なテクニックは、トレーニングのエポックな連続的な回数の後に破棄する単純な戦略に比べて、最小限または無付加価値を提供するということです。
選択されたエポックの数は、おもに利用可能な計算予算に依存する。
我々は、このアプローチをi-Epoch(iはニューラルネットワークが訓練されるエポックの一定数のエポック)と呼び、i-EpochのPareto-Frontを補完するPareto-Front(使用済みトレーニングエポックと予測性能)を比較して、早期破棄技術の品質を評価することを提案する。
関連論文リスト
- Learning Rate Optimization for Deep Neural Networks Using Lipschitz Bandits [9.361762652324968]
適切に調整された学習率によって、より高速なトレーニングとテストの精度が向上する。
本稿では,ニューラルネットワークの学習速度を調整するためのLipschitz bandit-drivenアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-15T16:21:55Z) - Approximated Likelihood Ratio: A Forward-Only and Parallel Framework for Boosting Neural Network Training [30.452060061499523]
本稿では、勾配推定における計算およびメモリ要求を軽減するために、LR法を近似する手法を提案する。
ニューラルネットワークトレーニングにおける近似手法の有効性を実験により実証した。
論文 参考訳(メタデータ) (2024-03-18T23:23:50Z) - Dichotomy of Early and Late Phase Implicit Biases Can Provably Induce Grokking [81.57031092474625]
Powerらによる最近の研究は、算術のタスクを学習する際の驚くべき"グロキング"現象を強調した。
ニューラルネットワークはまずトレーニングセットを“記憶”し、完全なトレーニング精度を持つが、ほぼランダムなテスト精度を実現する。
本論文は, 理論設定におけるグルーキング現象を考察し, 初期および後期の暗黙バイアスの2分法により誘導可能であることを示す。
論文 参考訳(メタデータ) (2023-11-30T18:55:38Z) - Analytically Tractable Inference in Deep Neural Networks [0.0]
Tractable Approximate Inference (TAGI)アルゴリズムは、浅いフルコネクテッドニューラルネットワークのバックプロパゲーションに対する実行可能でスケーラブルな代替手段であることが示された。
従来のディープニューラルネットワークアーキテクチャをトレーニングするために、TAGIがバックプロパゲーションのパフォーマンスとどのように一致するか、または上回るかを実証しています。
論文 参考訳(メタデータ) (2021-03-09T14:51:34Z) - Statistically Significant Stopping of Neural Network Training [0.0]
ニューラルネットワークが学習を停止したかどうかを判断するための統計的意義テストについて紹介する。
我々はこれを新しい学習率スケジューラの基礎として利用する。
論文 参考訳(メタデータ) (2021-03-01T18:51:16Z) - Gradient Descent on Neural Networks Typically Occurs at the Edge of
Stability [94.4070247697549]
ニューラルネットワークトレーニング対象に対するフルバッチ勾配降下は、安定性のエッジと呼ばれるレジームで動作します。
この体制では、トレーニング損失 Hessian の最大固有値は2/text(ステップサイズ)$ の数値よりすぐ上にあり、トレーニング損失は短い時間スケールで非単調に振る舞うが、長い時間スケールでは一貫して減少する。
論文 参考訳(メタデータ) (2021-02-26T22:08:19Z) - Sparse approximation in learning via neural ODEs [0.0]
私たちはトレーニングで最終的な時間地平線$ T$の影響を研究します。
現実的には、トレーニング問題における短い時間水平は、より浅い残留ニューラルネットワークを考えると解釈できる。
論文 参考訳(メタデータ) (2021-02-26T16:23:02Z) - A Simple Fine-tuning Is All You Need: Towards Robust Deep Learning Via
Adversarial Fine-tuning [90.44219200633286]
我々は,$textitslow start, fast decay$ learning rate schedulingストラテジーに基づく,単純かつ非常に効果的な敵の微調整手法を提案する。
実験の結果,提案手法はCIFAR-10, CIFAR-100, ImageNetデータセットの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:50:15Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Robust Pruning at Initialization [61.30574156442608]
計算リソースが限られているデバイス上で、機械学習アプリケーションを使用するための、より小さく、エネルギー効率のよいニューラルネットワークの必要性が高まっている。
ディープNNにとって、このような手順はトレーニングが困難であり、例えば、ひとつの層が完全に切断されるのを防ぐことができないため、満足できないままである。
論文 参考訳(メタデータ) (2020-02-19T17:09:50Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。