論文の概要: Learning Rate Curriculum
- arxiv url: http://arxiv.org/abs/2205.09180v3
- Date: Fri, 5 Jul 2024 08:51:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 03:30:47.017801
- Title: Learning Rate Curriculum
- Title(参考訳): 学習率カリキュラム
- Authors: Florinel-Alin Croitoru, Nicolae-Catalin Ristea, Radu Tudor Ionescu, Nicu Sebe,
- Abstract要約: ラーニングレートカリキュラム(LeRaC)と呼ばれる新しいカリキュラム学習手法を提案する。
LeRaCは、ニューラルネットワークの各レイヤ毎に異なる学習率を使用して、最初のトレーニングエポックの間、データに依存しないカリキュラムを作成する。
Smoothing(CBS)によるCurriculum(Curriculum)との比較を行った。
- 参考スコア(独自算出の注目度): 75.98230528486401
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Most curriculum learning methods require an approach to sort the data samples by difficulty, which is often cumbersome to perform. In this work, we propose a novel curriculum learning approach termed Learning Rate Curriculum (LeRaC), which leverages the use of a different learning rate for each layer of a neural network to create a data-agnostic curriculum during the initial training epochs. More specifically, LeRaC assigns higher learning rates to neural layers closer to the input, gradually decreasing the learning rates as the layers are placed farther away from the input. The learning rates increase at various paces during the first training iterations, until they all reach the same value. From this point on, the neural model is trained as usual. This creates a model-level curriculum learning strategy that does not require sorting the examples by difficulty and is compatible with any neural network, generating higher performance levels regardless of the architecture. We conduct comprehensive experiments on 12 data sets from the computer vision (CIFAR-10, CIFAR-100, Tiny ImageNet, ImageNet-200, Food-101, UTKFace, PASCAL VOC), language (BoolQ, QNLI, RTE) and audio (ESC-50, CREMA-D) domains, considering various convolutional (ResNet-18, Wide-ResNet-50, DenseNet-121, YOLOv5), recurrent (LSTM) and transformer (CvT, BERT, SepTr) architectures. We compare our approach with the conventional training regime, as well as with Curriculum by Smoothing (CBS), a state-of-the-art data-agnostic curriculum learning approach. Unlike CBS, our performance improvements over the standard training regime are consistent across all data sets and models. Furthermore, we significantly surpass CBS in terms of training time (there is no additional cost over the standard training regime for LeRaC). Our code is freely available at: https://github.com/CroitoruAlin/LeRaC.
- Abstract(参考訳): ほとんどのカリキュラム学習手法は、データサンプルを困難にソートするアプローチを必要とする。
本研究では,ニューラルネットワークの各層に異なる学習率を用いることで,初等訓練期間中にデータに依存しないカリキュラムを作成する,LeRaC(Learning Rate Curriculum)と呼ばれる新しいカリキュラム学習手法を提案する。
より具体的には、LeRaCは入力に近いニューラルネットワーク層に高い学習率を割り当て、層が入力から遠くに配置されているため、学習率が徐々に低下する。
学習率は、最初のトレーニングイテレーションで、すべて同じ値に達するまで、さまざまなペースで増加する。
この点から、ニューラルモデルは通常のように訓練される。
これにより、モデルレベルのカリキュラム学習戦略が作成され、難易度でサンプルをソートする必要がなく、どのニューラルネットワークとも互換性があり、アーキテクチャに関係なく高いパフォーマンスレベルが生成される。
コンピュータビジョン (CIFAR-10, CIFAR-100, Tiny ImageNet, ImageNet-200, Food-101, UTKFace, PASCAL VOC), Language (BoolQ, QNLI, RTE) および Audio (ESC-50, CREMA-D) ドメインから,様々な畳み込み (ResNet-18, Wide-ResNet-50, DenseNet-121, YOLOv5), recurrent (LSTM) およびtransformer (CvT, BERT, SepTr) アーキテクチャを考慮し, コンピュータビジョンから12つのデータセットを総合的に実験した。
我々は,従来の研修制度と,最新のデータに依存しないカリキュラム学習手法であるSmoothing(CBS)によるカリキュラムとの比較を行った。
CBSとは違って、標準的なトレーニングシステムに対するパフォーマンス改善は、すべてのデータセットとモデルで一貫しています。
さらに、トレーニング時間という点ではCBSをはるかに上回りました(LeRaCの標準トレーニング体制には追加費用はありません)。
私たちのコードは、https://github.com/CroitoruAlin/LeRaC.comで無料で利用可能です。
関連論文リスト
- EfficientTrain++: Generalized Curriculum Learning for Efficient Visual Backbone Training [79.96741042766524]
訓練カリキュラムをソフトセレクション機能として再構築する。
自然画像の内容の露光は,データ拡張の強度によって容易に達成できることを示す。
結果のメソッドであるEfficientTrain++は単純で汎用的だが驚くほど効果的である。
論文 参考訳(メタデータ) (2024-05-14T17:00:43Z) - Accelerating Batch Active Learning Using Continual Learning Techniques [5.514154947870141]
Active Learning(AL)の大きな問題は、クエリラウンド毎にモデルがスクラッチから再トレーニングされるため、トレーニングコストが高いことだ。
我々は、事前にラベル付けされたセットに対してさらなるトレーニングをバイアスすることで、この問題を回避する新しいテクニックのクラスを開発する。
自然言語、ビジョン、医用画像、計算生物学など、さまざまなデータ領域で実験を行います。
論文 参考訳(メタデータ) (2023-05-10T18:34:05Z) - Learn, Unlearn and Relearn: An Online Learning Paradigm for Deep Neural
Networks [12.525959293825318]
我々は、ディープニューラルネットワーク(DNN)のためのオンライン学習パラダイムであるLearning, Unlearn, and Relearn(LURE)を紹介する。
LUREは、モデルの望ましくない情報を選択的に忘れる未学習フェーズと、一般化可能な特徴の学習を強調する再学習フェーズとを交換する。
トレーニングパラダイムは、分類と少数ショット設定の両方において、データセット間で一貫したパフォーマンス向上を提供します。
論文 参考訳(メタデータ) (2023-03-18T16:45:54Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Training Spiking Neural Networks with Local Tandem Learning [96.32026780517097]
スパイキングニューラルネットワーク(SNN)は、前者よりも生物学的に可塑性でエネルギー効率が高いことが示されている。
本稿では,局所タンデム学習(Local Tandem Learning, LTL)と呼ばれる一般化学習規則を提案する。
CIFAR-10データセット上の5つのトレーニングエポック内に高速なネットワーク収束を示すとともに,計算複雑性が低い。
論文 参考訳(メタデータ) (2022-10-10T10:05:00Z) - Classification of Quasars, Galaxies, and Stars in the Mapping of the
Universe Multi-modal Deep Learning [0.0]
Sloan Digital Sky Survey (SDSS-4)の第4バージョンであるData Release 16データセットは、SDSSデータセットを、マシンラーニングとディープラーニングアーキテクチャを使用して、銀河、星、クエーサーに分類するために使用された。
我々は、新しいマルチモーダルアーキテクチャを構築し、最先端の結果を得る。
論文 参考訳(メタデータ) (2022-05-22T05:17:31Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Improving the Accuracy of Early Exits in Multi-Exit Architectures via
Curriculum Learning [88.17413955380262]
マルチエクイットアーキテクチャにより、ディープニューラルネットワークは、正確なコストで厳密な期限に従うために、実行を早期に終了することができる。
カリキュラム学習を活用したマルチエクジットカリキュラム学習という新しい手法を紹介します。
本手法は, 標準訓練手法と比較して, 早期終了の精度を一貫して向上させる。
論文 参考訳(メタデータ) (2021-04-21T11:12:35Z) - Weight Update Skipping: Reducing Training Time for Artificial Neural
Networks [0.30458514384586394]
本稿では,時間的変動を示す精度向上の観察を生かしたANNのための新しいトレーニング手法を提案する。
このような時間窓の間、ネットワークがまだトレーニングされていることを保証し、過度な適合を避けるバイアスを更新し続けます。
このようなトレーニングアプローチは、計算コストを大幅に削減して、ほぼ同じ精度を達成し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2020-12-05T15:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。