論文の概要: MLR-SNet: Transferable LR Schedules for Heterogeneous Tasks
- arxiv url: http://arxiv.org/abs/2007.14546v3
- Date: Thu, 13 May 2021 15:39:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 19:33:49.927291
- Title: MLR-SNet: Transferable LR Schedules for Heterogeneous Tasks
- Title(参考訳): MLR-SNet:不均一タスクのための転送可能なLRスケジューリング
- Authors: Jun Shu, Yanwen Zhu, Qian Zhao, Zongben Xu, Deyu Meng
- Abstract要約: 学習率(LR)は、勾配降下(SGD)訓練ネットワーク(DNN)において最も重要なハイパーラーニングネットワークパラメータの1つである。
本稿では,MLR-SNetタスクの適切なLRスケジュールを学習することを提案する。
また、MLR-SNetを使用して、異なるノイズ、アーキテクチャ、データモダリティ、トレーニング用のサイズなどのタスクをクエリし、パフォーマンスを達成または改善します。
- 参考スコア(独自算出の注目度): 56.66010634895913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The learning rate (LR) is one of the most important hyper-parameters in
stochastic gradient descent (SGD) algorithm for training deep neural networks
(DNN). However, current hand-designed LR schedules need to manually pre-specify
a fixed form, which limits their ability to adapt practical non-convex
optimization problems due to the significant diversification of training
dynamics. Meanwhile, it always needs to search proper LR schedules from scratch
for new tasks, which, however, are often largely different with task
variations, like data modalities, network architectures, or training data
capacities. To address this learning-rate-schedule setting issues, we propose
to parameterize LR schedules with an explicit mapping formulation, called
\textit{MLR-SNet}. The learnable parameterized structure brings more
flexibility for MLR-SNet to learn a proper LR schedule to comply with the
training dynamics of DNN. Image and text classification benchmark experiments
substantiate the capability of our method for achieving proper LR schedules.
Moreover, the explicit parameterized structure makes the meta-learned LR
schedules capable of being transferable and plug-and-play, which can be easily
generalized to new heterogeneous tasks. We transfer our meta-learned MLR-SNet
to query tasks like different training epochs, network architectures, data
modalities, dataset sizes from the training ones, and achieve comparable or
even better performance compared with hand-designed LR schedules specifically
designed for the query tasks. The robustness of MLR-SNet is also substantiated
when the training data are biased with corrupted noise. We further prove the
convergence of the SGD algorithm equipped with LR schedule produced by our
MLR-Net, with the convergence rate comparable to the best-known ones of the
algorithm for solving the problem.
- Abstract(参考訳): 学習率(LR)は、ディープニューラルネットワーク(DNN)のトレーニングのための確率勾配降下(SGD)アルゴリズムにおいて最も重要なパラメータの1つである。
しかし、現在の手動設計のLRスケジュールでは、トレーニングダイナミクスの大幅な多様化により、実際の非凸最適化問題に適応する能力を制限する固定形式を手動で規定する必要がある。
一方、新しいタスクのために、スクラッチから適切なLRスケジュールを検索する必要があるが、データモダリティやネットワークアーキテクチャ、データ容量のトレーニングなど、タスクのバリエーションによって大きく異なることが多い。
学習時間とスケジュール設定の問題に対処するため,明示的なマッピング定式化によりLRスケジュールをパラメータ化することを提案する。
学習可能なパラメータ化構造により、MLR-SNetは適切なLRスケジュールを学習し、DNNのトレーニング力学に従うことができる。
画像およびテキスト分類ベンチマーク実験は、適切なLRスケジュールを達成するための方法の能力を裏付けるものである。
さらに、明示的なパラメータ化構造により、メタ学習LRスケジュールは転送可能で、プラグアンドプレイが可能となり、新しい異種タスクに容易に一般化できる。
我々はメタ学習したMLR-SNetを、異なるトレーニングエポック、ネットワークアーキテクチャ、データモダリティ、トレーニングエポックからのデータセットサイズといったタスクのクエリに転送し、クエリタスク用に特別に設計されたLRスケジュールと比較すると、同等またはそれ以上のパフォーマンスを達成する。
MLR-SNetのロバスト性は、トレーニングデータが劣化したノイズに偏りがあるときにも裏付けられる。
我々はさらに,mlr-net が生成する lr スケジュールを備えた sgd アルゴリズムの収束を,問題の解法として最もよく知られたアルゴリズムに匹敵する収束率で証明する。
関連論文リスト
- Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Scaling Optimal LR Across Token Horizons [81.29631219839311]
LLMトレーニングにおいて,最適な学習速度がトークン水平線に依存することを示す。
また,LLama-1が高LRを多用した証拠も提示し,その性能を推定した。
論文 参考訳(メタデータ) (2024-09-30T03:32:02Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Optimizing Learning Rate Schedules for Iterative Pruning of Deep Neural
Networks [25.84452767219292]
SILOと呼ばれるネットワークプルーニングのための学習率(LR)スケジュールを提案する。
SILOは強い理論的動機を持ち、プルーニング中にLRを動的に調整し、一般化を改善する。
SILOは、Oracleが最適化した間隔内でmax_lrの値を正確に調整することができ、その結果、複雑さが著しく低いOracleとパフォーマンスが競争できることがわかった。
論文 参考訳(メタデータ) (2022-12-09T14:39:50Z) - Selecting and Composing Learning Rate Policies for Deep Neural Networks [10.926538783768219]
本稿では,効率的なディープニューラルネットワーク(DNN)トレーニングのためのLRポリシーの選択と構成に関する体系的なアプローチを提案する。
本研究では,所定のLRポリシーを予め定義されたトレーニング時間制約の下で,所望の精度目標に対して自動検証するLRチューニング機構を開発する。
第2に、動的チューニングにより、同一および/または異なるLR関数から優れたLRポリシーを選択し、構成するためのLRポリシーレコメンデーションシステム(LRBench)を開発する。
第3に、異なるDNNをサポートすることによりLRBenchを拡張し、異なるLRポリシーと異なるポリシーによる大きな相互影響を示す。
論文 参考訳(メタデータ) (2022-10-24T03:32:59Z) - An Optimization-Based Meta-Learning Model for MRI Reconstruction with
Diverse Dataset [4.9259403018534496]
メタラーニングフレームワークを用いた一般化可能なMRI再構成モデルを構築した。
提案するネットワークは,学習者適応モデルを用いて正規化関数を学習する。
メタトレーニング後および半減期における未確認課題の即時訓練の結果を検証した。
論文 参考訳(メタデータ) (2021-10-02T03:21:52Z) - Automated Learning Rate Scheduler for Large-batch Training [24.20872850681828]
大規模バッチトレーニングは、ディープラーニングにおける大規模データセットとモデルを活用する上で不可欠である。
小規模なバッチトレーニングと同等のパフォーマンスを達成するために、特別に設計された学習率(LR)スケジュールを必要とすることが多い。
本稿では,ニューラルネットワークのトレーニングに有効なLR自動スケジューリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T05:23:13Z) - A Wasserstein Minimax Framework for Mixed Linear Regression [69.40394595795544]
マルチモーダル分布は、学習タスクにおいてクラスタ化されたデータをモデル化するために一般的に使用される。
混合線形回帰問題に対する最適輸送ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-14T16:03:51Z) - AutoLRS: Automatic Learning-Rate Schedule by Bayesian Optimization on
the Fly [22.754424957856052]
本稿では,訓練段階ごとの学習率を自動的に最適化するAutoLRSを提案する。
本稿では,多様な領域における訓練課題の広範な実験を通じて,AutoLRSの利点と汎用性を実証する。
論文 参考訳(メタデータ) (2021-05-22T16:41:10Z) - Closed-loop Matters: Dual Regression Networks for Single Image
Super-Resolution [73.86924594746884]
ディープニューラルネットワークは、画像超解像において有望な性能を示した。
これらのネットワークは、低分解能(LR)画像から高分解能(HR)画像への非線形マッピング関数を学習する。
本稿では,可能な関数の空間を削減するために,LRデータに新たな制約を導入することで,二重回帰手法を提案する。
論文 参考訳(メタデータ) (2020-03-16T04:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。