論文の概要: Optimizing Learning Rate Schedules for Iterative Pruning of Deep Neural
Networks
- arxiv url: http://arxiv.org/abs/2212.06144v1
- Date: Fri, 9 Dec 2022 14:39:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 13:44:36.946532
- Title: Optimizing Learning Rate Schedules for Iterative Pruning of Deep Neural
Networks
- Title(参考訳): ディープニューラルネットワークの反復プラニングのための学習速度の最適化
- Authors: Shiyu Liu, Rohan Ghosh, John Tan Chong Min, Mehul Motani
- Abstract要約: SILOと呼ばれるネットワークプルーニングのための学習率(LR)スケジュールを提案する。
SILOは強い理論的動機を持ち、プルーニング中にLRを動的に調整し、一般化を改善する。
SILOは、Oracleが最適化した間隔内でmax_lrの値を正確に調整することができ、その結果、複雑さが著しく低いOracleとパフォーマンスが競争できることがわかった。
- 参考スコア(独自算出の注目度): 25.84452767219292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The importance of learning rate (LR) schedules on network pruning has been
observed in a few recent works. As an example, Frankle and Carbin (2019)
highlighted that winning tickets (i.e., accuracy preserving subnetworks) can
not be found without applying a LR warmup schedule and Renda, Frankle and
Carbin (2020) demonstrated that rewinding the LR to its initial state at the
end of each pruning cycle improves performance. In this paper, we go one step
further by first providing a theoretical justification for the surprising
effect of LR schedules. Next, we propose a LR schedule for network pruning
called SILO, which stands for S-shaped Improved Learning rate Optimization. The
advantages of SILO over existing state-of-the-art (SOTA) LR schedules are
two-fold: (i) SILO has a strong theoretical motivation and dynamically adjusts
the LR during pruning to improve generalization. Specifically, SILO increases
the LR upper bound (max_lr) in an S-shape. This leads to an improvement of 2% -
4% in extensive experiments with various types of networks (e.g., Vision
Transformers, ResNet) on popular datasets such as ImageNet, CIFAR-10/100. (ii)
In addition to the strong theoretical motivation, SILO is empirically optimal
in the sense of matching an Oracle, which exhaustively searches for the optimal
value of max_lr via grid search. We find that SILO is able to precisely adjust
the value of max_lr to be within the Oracle optimized interval, resulting in
performance competitive with the Oracle with significantly lower complexity.
- Abstract(参考訳): ネットワークプルーニングにおける学習率(LR)スケジュールの重要性は、最近のいくつかの研究で指摘されている。
例として、Frankle and Carbin (2019)は、LRウォームアップスケジュールを適用しなければ、優勝チケット(すなわち、精度の低いサブネットワーク)を見つけることができないことを強調し、Renda, Frankle and Carbin (2020)は、各プルーニングサイクルの終了時にLRを初期状態に戻すことでパフォーマンスが向上することを示した。
本稿では、まずLRスケジュールの驚くべき影響を理論的に正当化することで、さらに一歩前進する。
次に、S字型改良学習率最適化のためのSILOと呼ばれるネットワークプルーニングのためのLRスケジュールを提案する。
既存の最先端(SOTA)LRスケジュールに対するSILOの利点は2つある。
(i)SILOは理論的モチベーションが強く、プルーニング中にLRを動的に調整し、一般化を改善する。
具体的には、SILOはS字形のLR上界(max_lr)を増加させる。
これにより、imagenetやcifar-10/100といった一般的なデータセット上での、さまざまなタイプのネットワーク(視覚トランスフォーマー、resnetなど)での広範な実験で2%4%改善されている。
(二)強い理論的動機に加えて、SILOは、グリッドサーチによるmax_lrの最適値を徹底的に探索するOracleとのマッチングという意味で経験的に最適である。
silo は oracle の最適化したインターバル内にある max_lr の値を精度良く調整できるため,複雑さが著しく低い oracle と性能が競合することが分かりました。
関連論文リスト
- Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Run LoRA Run: Faster and Lighter LoRA Implementations [50.347242693025336]
LoRAは、線形層に低ランクアダプタを導入することにより、ニューラルネットワーク内のトレーニング可能なパラメータの数を減らすテクニックである。
本稿では,LoRAの効率的な実装のためのRunLoRAフレームワークを提案する。
実験は、言語モデリングネットワーク上で最大28%のスピードアップを示す。
論文 参考訳(メタデータ) (2023-12-06T10:54:34Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - S-Cyc: A Learning Rate Schedule for Iterative Pruning of ReLU-based
Networks [37.64233393273063]
ReLUに基づくネットワークが反復的に切断されると、重み勾配の分布はより狭くなる傾向にある。
そこで我々は,S-Cyclical (S-Cyc) と呼ばれる新しいLRスケジュールを提案する。
S字形におけるLR上界(max_lr)を、ネットワークが反復的に切断されるにつれて徐々に増加させることにより、S字形は従来の環状LRスケジュールに適応する。
論文 参考訳(メタデータ) (2021-10-17T08:58:08Z) - MLR-SNet: Transferable LR Schedules for Heterogeneous Tasks [56.66010634895913]
学習率(LR)は、勾配降下(SGD)訓練ネットワーク(DNN)において最も重要なハイパーラーニングネットワークパラメータの1つである。
本稿では,MLR-SNetタスクの適切なLRスケジュールを学習することを提案する。
また、MLR-SNetを使用して、異なるノイズ、アーキテクチャ、データモダリティ、トレーニング用のサイズなどのタスクをクエリし、パフォーマンスを達成または改善します。
論文 参考訳(メタデータ) (2020-07-29T01:18:58Z) - Towards Understanding Label Smoothing [36.54164997035046]
ラベルスムーズな正規化(LSR)は、トレーニングアルゴリズムによるディープニューラルネットワークにおいて大きな成功を収めている。
適切なLSRが分散を減少させることで収束を加速することを示す。
本稿では,TSLA(Two-Stage LAbel smoothing algorithm)を提案する。
論文 参考訳(メタデータ) (2020-06-20T20:36:17Z) - Iterative Network for Image Super-Resolution [69.07361550998318]
単一画像超解像(SISR)は、最近の畳み込みニューラルネットワーク(CNN)の発展により、大幅に活性化されている。
本稿では、従来のSISRアルゴリズムに関する新たな知見を提供し、反復最適化に依存するアプローチを提案する。
反復最適化の上に,新しい反復型超解像ネットワーク (ISRN) を提案する。
論文 参考訳(メタデータ) (2020-05-20T11:11:47Z) - kDecay: Just adding k-decay items on Learning-Rate Schedule to improve
Neural Networks [5.541389959719384]
k-decayは、よく使われるLRスケジュールの性能を効果的に改善する。
我々は、異なるニューラルネットワークを用いたCIFARおよびImageNetデータセットにおけるk-decay法の評価を行った。
精度はCIFAR-10データセットで1.08%、CIFAR-100データセットで2.07%向上した。
論文 参考訳(メタデータ) (2020-04-13T12:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。