論文の概要: AutoLRS: Automatic Learning-Rate Schedule by Bayesian Optimization on
the Fly
- arxiv url: http://arxiv.org/abs/2105.10762v1
- Date: Sat, 22 May 2021 16:41:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 13:32:00.602980
- Title: AutoLRS: Automatic Learning-Rate Schedule by Bayesian Optimization on
the Fly
- Title(参考訳): AutoLRS:フライ時のベイズ最適化による学習率自動スケジューリング
- Authors: Yuchen Jin, Tianyi Zhou, Liangyu Zhao, Yibo Zhu, Chuanxiong Guo, Marco
Canini, Arvind Krishnamurthy
- Abstract要約: 本稿では,訓練段階ごとの学習率を自動的に最適化するAutoLRSを提案する。
本稿では,多様な領域における訓練課題の広範な実験を通じて,AutoLRSの利点と汎用性を実証する。
- 参考スコア(独自算出の注目度): 22.754424957856052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The learning rate (LR) schedule is one of the most important hyper-parameters
needing careful tuning in training DNNs. However, it is also one of the least
automated parts of machine learning systems and usually costs significant
manual effort and computing. Though there are pre-defined LR schedules and
optimizers with adaptive LR, they introduce new hyperparameters that need to be
tuned separately for different tasks/datasets. In this paper, we consider the
question: Can we automatically tune the LR over the course of training without
human involvement? We propose an efficient method, AutoLRS, which automatically
optimizes the LR for each training stage by modeling training dynamics. AutoLRS
aims to find an LR applied to every $\tau$ steps that minimizes the resulted
validation loss. We solve this black-box optimization on the fly by Bayesian
optimization (BO). However, collecting training instances for BO requires a
system to evaluate each LR queried by BO's acquisition function for $\tau$
steps, which is prohibitively expensive in practice. Instead, we apply each
candidate LR for only $\tau'\ll\tau$ steps and train an exponential model to
predict the validation loss after $\tau$ steps. This mutual-training process
between BO and the loss-prediction model allows us to limit the training steps
invested in the BO search. We demonstrate the advantages and the generality of
AutoLRS through extensive experiments of training DNNs for tasks from diverse
domains using different optimizers. The LR schedules auto-generated by AutoLRS
lead to a speedup of $1.22\times$, $1.43\times$, and $1.5\times$ when training
ResNet-50, Transformer, and BERT, respectively, compared to the LR schedules in
their original papers, and an average speedup of $1.31\times$ over
state-of-the-art heavily-tuned LR schedules.
- Abstract(参考訳): 学習率(LR)スケジュールは、DNNのトレーニングに注意深いチューニングを必要とする最も重要なハイパーパラメータの1つである。
しかし、機械学習システムの最も自動化されていない部分の1つであり、通常、かなりの手作業と計算コストがかかる。
LRスケジュールと適応型LRのオプティマイザが事前に定義されているが、異なるタスク/データセットに対して個別に調整する必要がある新しいハイパーパラメータが導入されている。
本稿では,人間の関与なしに,トレーニングの過程でLRを自動的に調整できるのか,という課題について考察する。
本稿では,訓練段階ごとのLRを自動的に最適化するAutoLRSを提案する。
AutoLRSは、結果のバリデーション損失を最小限に抑えるために$\tau$ステップ毎に適用されるLRを見つけることを目的としている。
我々はこのブラックボックス最適化をベイズ最適化(BO)により高速に解く。
しかし、BOのトレーニングインスタンスの収集には、BOの取得関数によってクエリされた各LRを$\tau$のステップで評価する必要がある。
代わりに、各候補LRを$\tau'\ll\tau$ステップのみに適用し、$\tau$ステップ後の検証損失を予測する指数モデルをトレーニングする。
このboと損失予測モデル間の相互学習プロセスは、bo探索に費やされたトレーニングステップを制限することができる。
我々は,異なる最適化器を用いた多様なドメインからのタスクに対するDNNの訓練実験を通じて,AutoLRSの利点と汎用性を実証する。
AutoLRSが自動生成したLRスケジュールは、それぞれResNet-50、Transformer、BERTのトレーニング時に1.22\times$、1.43\times$、1.5\times$のスピードアップとなる。
関連論文リスト
- Where Do Large Learning Rates Lead Us? [5.305784285588872]
小さいLRや重量平均値で微調整を行った結果,初期LRの幅が狭いだけで最適な結果が得られた。
これらの初期LRは、タスクに最も関係のある機能に明確に焦点を合わせながら、学習された機能の集合を疎結合にしていることを示す。
対照的に、LRが小さすぎると不安定な最小化が生じ、全ての特徴を同時に学習しようと試み、その結果一般化が不十分になる。
論文 参考訳(メタデータ) (2024-10-29T15:14:37Z) - Scaling Optimal LR Across Token Horizons [81.29631219839311]
LLMトレーニングにおいて,最適な学習速度がトークン水平線に依存することを示す。
また,LLama-1が高LRを多用した証拠も提示し,その性能を推定した。
論文 参考訳(メタデータ) (2024-09-30T03:32:02Z) - Scaling Law with Learning Rate Annealing [4.121865876406014]
ニューラルネットワークモデルのクロスエントロピー損失曲線は、学習速度(LR)がトレーニングステップを上回り、スケーリング法則に準拠している。
LRアニールによるスケーリング法則の適用により、学習速度(LRS)の任意のステップにおける損失を正確に予測することができる。
論文 参考訳(メタデータ) (2024-08-20T17:30:48Z) - ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search [50.45155830888697]
ReST-MCTS*と呼ばれる強化された自己学習手法を開発し、プロセス報酬指導と木探索MCTS*を統合して、高品質な推論トレースを収集し、ポリシーや報酬モデルにステップごとの価値を学習する。
ReST-MCTS* における木探索ポリシーは,Best-of-N や Tree-of-Thought といった従来の LLM 推論ベースラインと比較して,同じ検索予算内で高い精度を達成できることを示す。
論文 参考訳(メタデータ) (2024-06-06T07:40:00Z) - M-L2O: Towards Generalizable Learning-to-Optimize by Test-Time Fast
Self-Adaptation [145.7321032755538]
L2O(Learning to Optimize)は、複雑なタスクの最適化手順を著しく加速させるため、注目を集めている。
本稿では, アウト・オブ・ディストリビューションタスクへの高速なテスト時間自己適応を実現するL2Oをメタトレーニングすることで, このオープンな課題に対する潜在的な解決策を検討する。
論文 参考訳(メタデータ) (2023-02-28T19:23:20Z) - Selecting and Composing Learning Rate Policies for Deep Neural Networks [10.926538783768219]
本稿では,効率的なディープニューラルネットワーク(DNN)トレーニングのためのLRポリシーの選択と構成に関する体系的なアプローチを提案する。
本研究では,所定のLRポリシーを予め定義されたトレーニング時間制約の下で,所望の精度目標に対して自動検証するLRチューニング機構を開発する。
第2に、動的チューニングにより、同一および/または異なるLR関数から優れたLRポリシーを選択し、構成するためのLRポリシーレコメンデーションシステム(LRBench)を開発する。
第3に、異なるDNNをサポートすることによりLRBenchを拡張し、異なるLRポリシーと異なるポリシーによる大きな相互影響を示す。
論文 参考訳(メタデータ) (2022-10-24T03:32:59Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Automated Learning Rate Scheduler for Large-batch Training [24.20872850681828]
大規模バッチトレーニングは、ディープラーニングにおける大規模データセットとモデルを活用する上で不可欠である。
小規模なバッチトレーニングと同等のパフォーマンスを達成するために、特別に設計された学習率(LR)スケジュールを必要とすることが多い。
本稿では,ニューラルネットワークのトレーニングに有効なLR自動スケジューリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T05:23:13Z) - A Wasserstein Minimax Framework for Mixed Linear Regression [69.40394595795544]
マルチモーダル分布は、学習タスクにおいてクラスタ化されたデータをモデル化するために一般的に使用される。
混合線形回帰問題に対する最適輸送ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-14T16:03:51Z) - MLR-SNet: Transferable LR Schedules for Heterogeneous Tasks [56.66010634895913]
学習率(LR)は、勾配降下(SGD)訓練ネットワーク(DNN)において最も重要なハイパーラーニングネットワークパラメータの1つである。
本稿では,MLR-SNetタスクの適切なLRスケジュールを学習することを提案する。
また、MLR-SNetを使用して、異なるノイズ、アーキテクチャ、データモダリティ、トレーニング用のサイズなどのタスクをクエリし、パフォーマンスを達成または改善します。
論文 参考訳(メタデータ) (2020-07-29T01:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。