論文の概要: SmartFRZ: An Efficient Training Framework using Attention-Based Layer
Freezing
- arxiv url: http://arxiv.org/abs/2401.16720v1
- Date: Tue, 30 Jan 2024 03:34:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 16:20:18.620022
- Title: SmartFRZ: An Efficient Training Framework using Attention-Based Layer
Freezing
- Title(参考訳): SmartFRZ: 注意ベースのレイヤ凍結を用いた効率的なトレーニングフレームワーク
- Authors: Sheng Li, Geng Yuan, Yue Dai, Youtao Zhang, Yanzhi Wang, Xulong Tang
- Abstract要約: モデルトレーニングのための汎用的で効率的なトレーニングフレームワーク(SmartFRZ)を提案する。
SmartFRZは注意誘導層凍結であり、凍結する適切な層を自動的に選択することができる。
実験結果から,SmartFRZはトレーニング中の計算量を効果的に削減し,トレーニングアクセラレーションの大幅な向上を実現していることがわかった。
- 参考スコア(独自算出の注目度): 49.09164307779104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been a proliferation of artificial intelligence applications, where
model training is key to promising high-quality services for these
applications. However, the model training process is both time-intensive and
energy-intensive, inevitably affecting the user's demand for application
efficiency. Layer freezing, an efficient model training technique, has been
proposed to improve training efficiency. Although existing layer freezing
methods demonstrate the great potential to reduce model training costs, they
still remain shortcomings such as lacking generalizability and compromised
accuracy. For instance, existing layer freezing methods either require the
freeze configurations to be manually defined before training, which does not
apply to different networks, or use heuristic freezing criteria that is hard to
guarantee decent accuracy in different scenarios. Therefore, there lacks a
generic and smart layer freezing method that can automatically perform
``in-situation'' layer freezing for different networks during training
processes. To this end, we propose a generic and efficient training framework
(SmartFRZ). The core proposed technique in SmartFRZ is attention-guided layer
freezing, which can automatically select the appropriate layers to freeze
without compromising accuracy. Experimental results show that SmartFRZ
effectively reduces the amount of computation in training and achieves
significant training acceleration, and outperforms the state-of-the-art layer
freezing approaches.
- Abstract(参考訳): 人工知能アプリケーションの普及は、これらのアプリケーションに高品質なサービスを約束する上で、モデルトレーニングが鍵となる。
しかし、モデルトレーニングプロセスは時間集約的かつエネルギー集約的であり、アプリケーション効率に対するユーザの要求に必然的に影響を及ぼす。
効率的なモデルトレーニング手法である層凍結は、トレーニング効率を向上させるために提案されている。
既存の層凍結手法はモデルのトレーニングコストを削減する大きな可能性を示しているが、一般化可能性の欠如や精度の低下といった欠点は依然として残っている。
例えば、既存の層凍結法では、トレーニング前にフリーズ設定を手動で定義する必要があるが、異なるネットワークには適用されない。
したがって、トレーニングプロセス中に異なるネットワークに対して‘in-situation’層凍結を自動的に実行する、汎用的でスマートな層凍結方法が欠けている。
そこで本研究では,汎用的で効率的なトレーニングフレームワーク(SmartFRZ)を提案する。
SmartFRZの中核となる技術は、注意誘導層凍結であり、精度を損なうことなく、自動的に凍結する適切な層を選択することができる。
実験結果から,SmartFRZはトレーニングにおける計算量を効果的に削減し,トレーニングアクセラレーションの大幅な向上を実現し,最先端層凍結法よりも優れていた。
関連論文リスト
- AdaRankGrad: Adaptive Gradient-Rank and Moments for Memory-Efficient LLMs Training and Fine-Tuning [9.51289606759621]
大規模言語モデル(LLM)の訓練と微調整には、メモリと計算要求に関する課題が伴う。
低ランク適応(LoRA)など、これらの課題に対処する様々な技術が開発されている。
トレーニングが進むにつれて、推定勾配のランクが徐々に低下する現象に着想を得た新しい手法を導入する。
論文 参考訳(メタデータ) (2024-10-23T13:53:26Z) - Always-Sparse Training by Growing Connections with Guided Stochastic
Exploration [46.4179239171213]
本研究では,より大規模かつスペーサーなモデルへのスケーリングに優れる,効率的な常時スパーストレーニングアルゴリズムを提案する。
我々は,VGGモデルとVTモデルを用いて,CIFAR-10/100 と ImageNet の手法を評価し,様々なスペーサー化手法と比較した。
論文 参考訳(メタデータ) (2024-01-12T21:32:04Z) - Temperature Balancing, Layer-wise Weight Analysis, and Neural Network
Training [58.20089993899729]
本稿では,直感的で効果的な階層学習手法であるTempBalanceを提案する。
我々は、TempBalanceが通常のSGDと注意深く調整されたスペクトルノルム正規化より著しく優れていることを示す。
また、TempBalanceは最先端のメトリクスやスケジューラよりも優れています。
論文 参考訳(メタデータ) (2023-12-01T05:38:17Z) - Aggregating Capacity in FL through Successive Layer Training for
Computationally-Constrained Devices [3.4530027457862]
フェデレートラーニング(FL)は通常、リソース制約されたエッジデバイス上で実行される。
FLトレーニングプロセスはそのような制約に合わせて調整されるべきである。
本研究では,FLモデルのパラメータをデバイス上で連続的に凍結・訓練する手法を提案する。
論文 参考訳(メタデータ) (2023-05-26T15:04:06Z) - FreeDoM: Training-Free Energy-Guided Conditional Diffusion Model [59.317041523253245]
本研究では, 各種条件に対する自由条件拡散モデル (FreeDoM) を提案する。
具体的には、オフザシェルフ事前学習ネットワーク(顔検出モデルなど)を活用して、時間に依存しないエネルギー関数を構築する。
提案するFreeDoMは,既存のトレーニングフリー手法よりも幅広い用途がある。
論文 参考訳(メタデータ) (2023-03-17T08:38:33Z) - Layer Freezing & Data Sieving: Missing Pieces of a Generic Framework for
Sparse Training [48.152207339344564]
層凍結とデータシービングをスパーストレーニングアルゴリズムに組み込んで汎用フレームワークを構築できることを示す。
実験の結果,SpFDEは重み空間,層凍結,データセット収集の3次元から精度を保ちながら,トレーニングコストを大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2022-09-22T17:45:23Z) - Low-rank lottery tickets: finding efficient low-rank neural networks via
matrix differential equations [2.3488056916440856]
効率的なローランクワークを見つけるための新しいアルゴリズムを提案する。
これらの作業は、トレーニングフェーズですでに決定され、適応されています。
本手法は,所望の近似精度を達成するために,訓練中のランクを自動的に動的に適応させる。
論文 参考訳(メタデータ) (2022-05-26T18:18:12Z) - Dimensionality Reduced Training by Pruning and Freezing Parts of a Deep
Neural Network, a Survey [69.3939291118954]
最先端のディープラーニングモデルには、何十億にも達するパラメータカウントがある。そのようなモデルのトレーニング、保存、転送は、エネルギーと時間を要するため、コストがかかる。
モデル圧縮は、ストレージと転送コストを低減し、フォワードおよび/または後方パスでの計算数を減少させることで、トレーニングをより効率的にすることができる。
この研究は、トレーニング全体を通してディープラーニングモデルでトレーニングされた重量を減らす方法に関する調査である。
論文 参考訳(メタデータ) (2022-05-17T05:37:08Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。