Fugu-MT 論文翻訳(概要): LRTuner: A Learning Rate Tuner for Deep Neural Networks

論文の概要: LRTuner: A Learning Rate Tuner for Deep Neural Networks

arxiv url: http://arxiv.org/abs/2105.14526v1
Date: Sun, 30 May 2021 13:06:26 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-02 13:23:13.877619
Title: LRTuner: A Learning Rate Tuner for Deep Neural Networks
Title（参考訳）: LRTuner: ディープニューラルネットワークのための学習率チューニング
Authors: Nikhil Iyer, V Thejas, Nipun Kwatra, Ramachandran Ramjee, Muthian Sivathanu
Abstract要約: 学習率のスケジュールの選択は、計算コストがミニマに近づくこと、実際にミニマにどれだけ近づいたか、そして最も重要なのは、ローカルなミニマ(ワイド/ナロー)が到達したかを決定する。現在のシステムは、手動チューニングされた学習率スケジュールを採用しており、各ネットワークとデータセットに対して面倒な調整がなされている。 LRTunerは,学習が進むにつれて学習率のスケジュールを調整できる手法である。
参考スコア（独自算出の注目度）: 10.913790890826785
License: http://creativecommons.org/licenses/by/4.0/
Abstract: One very important hyperparameter for training deep neural networks is the learning rate schedule of the optimizer. The choice of learning rate schedule determines the computational cost of getting close to a minima, how close you actually get to the minima, and most importantly the kind of local minima (wide/narrow) attained. The kind of minima attained has a significant impact on the generalization accuracy of the network. Current systems employ hand tuned learning rate schedules, which are painstakingly tuned for each network and dataset. Given that the state space of schedules is huge, finding a satisfactory learning rate schedule can be very time consuming. In this paper, we present LRTuner, a method for tuning the learning rate as training proceeds. Our method works with any optimizer, and we demonstrate results on SGD with Momentum, and Adam optimizers. We extensively evaluate LRTuner on multiple datasets, models, and across optimizers. We compare favorably against standard learning rate schedules for the given dataset and models, including ImageNet on Resnet-50, Cifar-10 on Resnet-18, and SQuAD fine-tuning on BERT. For example on ImageNet with Resnet-50, LRTuner shows up to 0.2% absolute gains in test accuracy compared to the hand-tuned baseline schedule. Moreover, LRTuner can achieve the same accuracy as the baseline schedule in 29% less optimization steps.
Abstract（参考訳）: ディープニューラルネットワークをトレーニングするための非常に重要なハイパーパラメータの1つは、オプティマイザの学習率スケジュールである。学習率のスケジュールの選択は、ミニマに近づくための計算コスト、実際にミニマにどれだけ近づいたか、そして最も重要なのは、ローカルなミニマ(ワイド/ナロー)が到達したかを決定する。達成されたミニマは、ネットワークの一般化精度に大きな影響を及ぼす。現在のシステムでは、ネットワークやデータセットごとに苦労して調整される、手書きの学習率スケジュールを採用している。スケジュールの状態空間が巨大であることを考えると、十分な学習率のスケジュールを見つけるのは非常に時間がかかる。本稿では,学習が進むにつれて学習率を調整するLRTunerを提案する。本手法は任意のオプティマイザと連携し,MomentumとAdamオプティマイザによるSGDの結果を示す。複数のデータセット、モデル、およびオプティマイザ間でLRTunerを広範囲に評価する。 resnet-50のimagenet、resnet-18のcifar-10、bertのsquad fine-tuningなど、所定のデータセットとモデルの標準学習率スケジュールと比較した。例えば、ImageNet with Resnet-50では、LRTunerは手作業のベースラインスケジュールと比較してテスト精度が0.2%向上している。さらに、lrtunerは29%の最適化ステップでベースラインスケジュールと同じ精度を達成することができる。

関連論文リスト

Randomness Helps Rigor: A Probabilistic Learning Rate Scheduler Bridging Theory and Deep Learning Practice [7.494722456816369]
確率論的学習率スケジューラ(PLRS)を提案する。 PLRSは単調に減少する条件に適合せず、証明可能な収束を保証する。 PLRSは,既存の最先端学習率スケジューラと精度の両面で同等以上の性能を示した。
論文参考訳（メタデータ） (2024-07-10T12:52:24Z)
Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文参考訳（メタデータ） (2024-06-17T12:24:45Z)
Temperature Balancing, Layer-wise Weight Analysis, and Neural Network Training [58.20089993899729]
本稿では,直感的で効果的な階層学習手法であるTempBalanceを提案する。我々は、TempBalanceが通常のSGDと注意深く調整されたスペクトルノルム正規化より著しく優れていることを示す。また、TempBalanceは最先端のメトリクスやスケジューラよりも優れています。
論文参考訳（メタデータ） (2023-12-01T05:38:17Z)
Towards Memory- and Time-Efficient Backpropagation for Training Spiking Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。 BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文参考訳（メタデータ） (2023-02-28T05:01:01Z)
Mind the (optimality) Gap: A Gap-Aware Learning Rate Scheduler for Adversarial Nets [3.8073142980733]
生成モデリング(GAN)を含む様々な領域において、敵ネットが強力であることが証明された。本稿では,適切なバランスを維持するために,相手の学習率を動的に適応させる新しい学習率スケジューラを設計する。我々は、画像生成のためのGANとドメイン適応のための対角ネットの2つの一般的な用途におけるスケジューラの有効性について、大規模な実験を行った。
論文参考訳（メタデータ） (2023-01-31T20:36:40Z)
Training Spiking Neural Networks with Local Tandem Learning [96.32026780517097]
スパイキングニューラルネットワーク(SNN)は、前者よりも生物学的に可塑性でエネルギー効率が高いことが示されている。本稿では,局所タンデム学習(Local Tandem Learning, LTL)と呼ばれる一般化学習規則を提案する。 CIFAR-10データセット上の5つのトレーニングエポック内に高速なネットワーク収束を示すとともに,計算複雑性が低い。
論文参考訳（メタデータ） (2022-10-10T10:05:00Z)
Online Training Through Time for Spiking Neural Networks [66.7744060103562]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。近年のトレーニング手法の進歩により、レイテンシの低い大規模タスクにおいて、ディープSNNを成功させることができた。本稿では,BPTT から派生した SNN の時間的学習(OTTT)によるオンライントレーニングを提案する。
論文参考訳（メタデータ） (2022-10-09T07:47:56Z)
Efficient deep learning models for land cover image classification [0.29748898344267777]
土地利用土地被覆(LULC)画像分類のためのBigEarthNetデータセットを用いて実験を行った。コンボリューションニューラルネットワーク、マルチ層パーセプトロン、ビジュアルトランスフォーマー、効率的なネットワーク、ワイド残留ネットワーク(WRN)など、さまざまな最先端モデルをベンチマークする。提案する軽量モデルは、訓練可能なパラメータが桁違いに小さく、平均的なFスコア分類精度が19のLULCクラスすべてに対して4.5%向上し、ベースラインとして使用するResNet50の2倍高速に訓練される。
論文参考訳（メタデータ） (2021-11-18T00:03:14Z)
Training Aware Sigmoidal Optimizer [2.99368851209995]
Aware Sigmoidal関数をトレーニングすると、ローカルミニマよりもはるかにサドルロスの風景が表示されます。本研究では,2相自動学習率スケジュールからなるTASO(Training Aware Sigmoidal Function)を提案する。提案手法をAdam、RMS、Adagradなどの一般的な適応学習率スケジュールと比較した。
論文参考訳（メタデータ） (2021-02-17T12:00:46Z)
Weight Update Skipping: Reducing Training Time for Artificial Neural Networks [0.30458514384586394]
本稿では,時間的変動を示す精度向上の観察を生かしたANNのための新しいトレーニング手法を提案する。このような時間窓の間、ネットワークがまだトレーニングされていることを保証し、過度な適合を避けるバイアスを更新し続けます。このようなトレーニングアプローチは、計算コストを大幅に削減して、ほぼ同じ精度を達成し、トレーニング時間を短縮する。
論文参考訳（メタデータ） (2020-12-05T15:12:10Z)
RIFLE: Backpropagation in Depth for Deep Transfer Learning through Re-Initializing the Fully-connected LayEr [60.07531696857743]
事前訓練されたモデルを用いたディープ畳み込みニューラルネットワーク(CNN)の微調整は、より大きなデータセットから学習した知識をターゲットタスクに転送するのに役立つ。転送学習環境におけるバックプロパゲーションを深める戦略であるRIFLEを提案する。 RIFLEは、深いCNN層の重み付けに意味のあるアップデートをもたらし、低レベルの機能学習を改善する。
論文参考訳（メタデータ） (2020-07-07T11:27:43Z)
SASL: Saliency-Adaptive Sparsity Learning for Neural Network Acceleration [20.92912642901645]
そこで本稿では、さらなる最適化のために、SASL(Saliency-Adaptive Sparsity Learning)アプローチを提案する。 ResNet-50 の 49.7% の FLOP を 0.39% のトップ-1 と 0.05% のトップ-5 の精度で削減できる。
論文参考訳（メタデータ） (2020-03-12T16:49:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。