Fugu-MT 論文翻訳(概要): AutoLRS: Automatic Learning-Rate Schedule by Bayesian Optimization on the Fly

論文の概要: AutoLRS: Automatic Learning-Rate Schedule by Bayesian Optimization on the Fly

arxiv url: http://arxiv.org/abs/2105.10762v1
Date: Sat, 22 May 2021 16:41:10 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-26 13:32:00.602980
Title: AutoLRS: Automatic Learning-Rate Schedule by Bayesian Optimization on the Fly
Title（参考訳）: AutoLRS:フライ時のベイズ最適化による学習率自動スケジューリング
Authors: Yuchen Jin, Tianyi Zhou, Liangyu Zhao, Yibo Zhu, Chuanxiong Guo, Marco Canini, Arvind Krishnamurthy
Abstract要約: 本稿では,訓練段階ごとの学習率を自動的に最適化するAutoLRSを提案する。本稿では,多様な領域における訓練課題の広範な実験を通じて,AutoLRSの利点と汎用性を実証する。
参考スコア（独自算出の注目度）: 22.754424957856052
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The learning rate (LR) schedule is one of the most important hyper-parameters needing careful tuning in training DNNs. However, it is also one of the least automated parts of machine learning systems and usually costs significant manual effort and computing. Though there are pre-defined LR schedules and optimizers with adaptive LR, they introduce new hyperparameters that need to be tuned separately for different tasks/datasets. In this paper, we consider the question: Can we automatically tune the LR over the course of training without human involvement? We propose an efficient method, AutoLRS, which automatically optimizes the LR for each training stage by modeling training dynamics. AutoLRS aims to find an LR applied to every $\tau$ steps that minimizes the resulted validation loss. We solve this black-box optimization on the fly by Bayesian optimization (BO). However, collecting training instances for BO requires a system to evaluate each LR queried by BO's acquisition function for $\tau$ steps, which is prohibitively expensive in practice. Instead, we apply each candidate LR for only $\tau'\ll\tau$ steps and train an exponential model to predict the validation loss after $\tau$ steps. This mutual-training process between BO and the loss-prediction model allows us to limit the training steps invested in the BO search. We demonstrate the advantages and the generality of AutoLRS through extensive experiments of training DNNs for tasks from diverse domains using different optimizers. The LR schedules auto-generated by AutoLRS lead to a speedup of $1.22\times$, $1.43\times$, and $1.5\times$ when training ResNet-50, Transformer, and BERT, respectively, compared to the LR schedules in their original papers, and an average speedup of $1.31\times$ over state-of-the-art heavily-tuned LR schedules.
Abstract（参考訳）: 学習率(LR)スケジュールは、DNNのトレーニングに注意深いチューニングを必要とする最も重要なハイパーパラメータの1つである。しかし、機械学習システムの最も自動化されていない部分の1つであり、通常、かなりの手作業と計算コストがかかる。 LRスケジュールと適応型LRのオプティマイザが事前に定義されているが、異なるタスク/データセットに対して個別に調整する必要がある新しいハイパーパラメータが導入されている。本稿では,人間の関与なしに,トレーニングの過程でLRを自動的に調整できるのか,という課題について考察する。本稿では,訓練段階ごとのLRを自動的に最適化するAutoLRSを提案する。 AutoLRSは、結果のバリデーション損失を最小限に抑えるために$\tau$ステップ毎に適用されるLRを見つけることを目的としている。我々はこのブラックボックス最適化をベイズ最適化(BO)により高速に解く。しかし、BOのトレーニングインスタンスの収集には、BOの取得関数によってクエリされた各LRを$\tau$のステップで評価する必要がある。代わりに、各候補LRを$\tau'\ll\tau$ステップのみに適用し、$\tau$ステップ後の検証損失を予測する指数モデルをトレーニングする。このboと損失予測モデル間の相互学習プロセスは、bo探索に費やされたトレーニングステップを制限することができる。我々は,異なる最適化器を用いた多様なドメインからのタスクに対するDNNの訓練実験を通じて,AutoLRSの利点と汎用性を実証する。 AutoLRSが自動生成したLRスケジュールは、それぞれResNet-50、Transformer、BERTのトレーニング時に1.22\times$、1.43\times$、1.5\times$のスピードアップとなる。

関連論文リスト

Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights [75.83625828306839]
textbfDrag-and-Drop LLMs (textitDnD)は、未ラベルのタスクプロンプトをLoRAの重み更新に直接マッピングすることで、タスク単位のトレーニングを廃止する。ライトウェイトテキストエンコーダは、各プロンプトバッチを条件埋め込みに蒸留し、カスケードされた超畳み込みデコーダによって全LORA行列に変換する。
論文参考訳（メタデータ） (2025-06-19T15:38:21Z)
SLR: Automated Synthesis for Scalable Logical Reasoning [23.14914698597022]
大規模言語モデル(LLM)の体系的評価と訓練のためのエンドツーエンドフレームワークであるSLRを紹介する。ユーザのタスク仕様を前提として、SLRは帰納的推論タスクの命令プロンプトを自動で生成する。 SLRを用いて、20のカリキュラムレベルに分類した19kプロンプトからなるベンチマークであるSLR-Benchを作成する。
論文参考訳（メタデータ） (2025-06-18T18:10:30Z)
Towards Efficient Automatic Self-Pruning of Large Language Models [55.90119819642064]
トレーニング後の構造化プルーニングは、トレーニングを必要とせずに大規模言語モデルを熟成する有望なソリューションである。この問題を緩和する鍵は、各レイヤのプルーニング率を正確に決定することにある、と我々は主張する。我々は、レイヤワイドプルーニングレートを効率的に検索するLLMのためのエンドツーエンドの自動自動プルーニングフレームワークである$textbfSelf-Prunerを紹介した。
論文参考訳（メタデータ） (2025-02-20T09:59:50Z)
Where Do Large Learning Rates Lead Us? [5.305784285588872]
小さいLRや重量平均値で微調整を行った結果,初期LRの幅が狭いだけで最適な結果が得られた。これらの初期LRは、タスクに最も関係のある機能に明確に焦点を合わせながら、学習された機能の集合を疎結合にしていることを示す。対照的に、LRが小さすぎると不安定な最小化が生じ、全ての特徴を同時に学習しようと試み、その結果一般化が不十分になる。
論文参考訳（メタデータ） (2024-10-29T15:14:37Z)
Scaling Optimal LR Across Token Horizons [81.29631219839311]
LLMトレーニングにおいて,最適な学習速度がトークン水平線に依存することを示す。また,LLama-1が高LRを多用した証拠も提示し,その性能を推定した。
論文参考訳（メタデータ） (2024-09-30T03:32:02Z)
Scaling Law with Learning Rate Annealing [4.121865876406014]
ニューラルネットワークモデルのクロスエントロピー損失曲線は、学習速度(LR)がトレーニングステップを上回り、スケーリング法則に準拠している。 LRアニールによるスケーリング法則の適用により、学習速度(LRS)の任意のステップにおける損失を正確に予測することができる。
論文参考訳（メタデータ） (2024-08-20T17:30:48Z)
ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search [50.45155830888697]
ReST-MCTS*と呼ばれる強化された自己学習手法を開発し、プロセス報酬指導と木探索MCTS*を統合して、高品質な推論トレースを収集し、ポリシーや報酬モデルにステップごとの価値を学習する。 ReST-MCTS* における木探索ポリシーは,Best-of-N や Tree-of-Thought といった従来の LLM 推論ベースラインと比較して,同じ検索予算内で高い精度を達成できることを示す。
論文参考訳（メタデータ） (2024-06-06T07:40:00Z)
M-L2O: Towards Generalizable Learning-to-Optimize by Test-Time Fast Self-Adaptation [145.7321032755538]
L2O(Learning to Optimize)は、複雑なタスクの最適化手順を著しく加速させるため、注目を集めている。本稿では, アウト・オブ・ディストリビューションタスクへの高速なテスト時間自己適応を実現するL2Oをメタトレーニングすることで, このオープンな課題に対する潜在的な解決策を検討する。
論文参考訳（メタデータ） (2023-02-28T19:23:20Z)
Selecting and Composing Learning Rate Policies for Deep Neural Networks [10.926538783768219]
本稿では,効率的なディープニューラルネットワーク(DNN)トレーニングのためのLRポリシーの選択と構成に関する体系的なアプローチを提案する。本研究では,所定のLRポリシーを予め定義されたトレーニング時間制約の下で,所望の精度目標に対して自動検証するLRチューニング機構を開発する。第2に、動的チューニングにより、同一および/または異なるLR関数から優れたLRポリシーを選択し、構成するためのLRポリシーレコメンデーションシステム(LRBench)を開発する。第3に、異なるDNNをサポートすることによりLRBenchを拡張し、異なるLRポリシーと異なるポリシーによる大きな相互影響を示す。
論文参考訳（メタデータ） (2022-10-24T03:32:59Z)
Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文参考訳（メタデータ） (2022-04-02T09:50:19Z)
Automated Learning Rate Scheduler for Large-batch Training [24.20872850681828]
大規模バッチトレーニングは、ディープラーニングにおける大規模データセットとモデルを活用する上で不可欠である。小規模なバッチトレーニングと同等のパフォーマンスを達成するために、特別に設計された学習率(LR)スケジュールを必要とすることが多い。本稿では,ニューラルネットワークのトレーニングに有効なLR自動スケジューリングアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-07-13T05:23:13Z)
A Wasserstein Minimax Framework for Mixed Linear Regression [69.40394595795544]
マルチモーダル分布は、学習タスクにおいてクラスタ化されたデータをモデル化するために一般的に使用される。混合線形回帰問題に対する最適輸送ベースフレームワークを提案する。
論文参考訳（メタデータ） (2021-06-14T16:03:51Z)
MLR-SNet: Transferable LR Schedules for Heterogeneous Tasks [56.66010634895913]
学習率(LR)は、勾配降下(SGD)訓練ネットワーク(DNN)において最も重要なハイパーラーニングネットワークパラメータの1つである。本稿では,MLR-SNetタスクの適切なLRスケジュールを学習することを提案する。また、MLR-SNetを使用して、異なるノイズ、アーキテクチャ、データモダリティ、トレーニング用のサイズなどのタスクをクエリし、パフォーマンスを達成または改善します。
論文参考訳（メタデータ） (2020-07-29T01:18:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。