論文の概要: Layer Freezing & Data Sieving: Missing Pieces of a Generic Framework for
Sparse Training
- arxiv url: http://arxiv.org/abs/2209.11204v1
- Date: Thu, 22 Sep 2022 17:45:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 12:42:03.888488
- Title: Layer Freezing & Data Sieving: Missing Pieces of a Generic Framework for
Sparse Training
- Title(参考訳): layer freezing & data sieving: スパーストレーニングのための汎用フレームワークの欠片
- Authors: Geng Yuan, Yanyu Li, Sheng Li, Zhenglun Kong, Sergey Tulyakov, Xulong
Tang, Yanzhi Wang, Jian Ren
- Abstract要約: 層凍結とデータシービングをスパーストレーニングアルゴリズムに組み込んで汎用フレームワークを構築できることを示す。
実験の結果,SpFDEは重み空間,層凍結,データセット収集の3次元から精度を保ちながら,トレーニングコストを大幅に削減できることがわかった。
- 参考スコア(独自算出の注目度): 48.152207339344564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, sparse training has emerged as a promising paradigm for efficient
deep learning on edge devices. The current research mainly devotes efforts to
reducing training costs by further increasing model sparsity. However,
increasing sparsity is not always ideal since it will inevitably introduce
severe accuracy degradation at an extremely high sparsity level. This paper
intends to explore other possible directions to effectively and efficiently
reduce sparse training costs while preserving accuracy. To this end, we
investigate two techniques, namely, layer freezing and data sieving. First, the
layer freezing approach has shown its success in dense model training and
fine-tuning, yet it has never been adopted in the sparse training domain.
Nevertheless, the unique characteristics of sparse training may hinder the
incorporation of layer freezing techniques. Therefore, we analyze the
feasibility and potentiality of using the layer freezing technique in sparse
training and find it has the potential to save considerable training costs.
Second, we propose a data sieving method for dataset-efficient training, which
further reduces training costs by ensuring only a partial dataset is used
throughout the entire training process. We show that both techniques can be
well incorporated into the sparse training algorithm to form a generic
framework, which we dub SpFDE. Our extensive experiments demonstrate that SpFDE
can significantly reduce training costs while preserving accuracy from three
dimensions: weight sparsity, layer freezing, and dataset sieving.
- Abstract(参考訳): 近年,エッジデバイス上での効率的なディープラーニングのパラダイムとしてスパーストレーニングが登場している。
現在の研究は主に、モデルのスパーシティをさらに増やすことで、トレーニングコストの削減に尽力している。
しかし、スパルシティーの増大は必然的に極めて高いスパルシティーレベルで高い精度の劣化をもたらすため、必ずしも理想的ではない。
本稿は,精度を維持しつつスパーストレーニングコストを効果的かつ効率的に削減するための他の方法を検討することを目的とする。
そこで本研究では,レイヤ凍結とデータシービングという2つの手法について検討する。
まず、層凍結アプローチは密集したモデルトレーニングと微調整で成功を収めているが、スパーストレーニング領域では採用されていない。
それにもかかわらず、スパーストレーニングのユニークな特徴は層凍結技術の導入を妨げる可能性がある。
そこで,少人数の学習における層凍結技術の適用可能性と可能性を分析し,かなりのトレーニングコスト削減の可能性を見いだした。
第2に、データセット効率のトレーニングのためのデータシービング手法を提案し、トレーニングプロセス全体を通して部分的なデータセットのみを使用することで、トレーニングコストをさらに削減する。
どちらの手法もスパーストレーニングアルゴリズムにうまく組み込まれ、汎用的なフレームワークを形成することができることを示す。
我々の広範な実験により、SpFDEはトレーニングコストを大幅に削減すると同時に、重み空間、層凍結、データセットシービングの3次元から精度を保っている。
関連論文リスト
- Fast and Controllable Post-training Sparsity: Learning Optimal Sparsity Allocation with Global Constraint in Minutes [33.68058313321142]
本稿では,ニューラルネットワークの疎度を制御可能な後訓練時疎度(FCPTS)フレームワークを提案する。
提案手法は,グローバルなスパシティ率への収束の保証を付加して,短時間で迅速かつ正確なスパシティ割当学習を可能にする。
論文 参考訳(メタデータ) (2024-05-09T14:47:15Z) - Always-Sparse Training by Growing Connections with Guided Stochastic
Exploration [46.4179239171213]
本研究では,より大規模かつスペーサーなモデルへのスケーリングに優れる,効率的な常時スパーストレーニングアルゴリズムを提案する。
我々は,VGGモデルとVTモデルを用いて,CIFAR-10/100 と ImageNet の手法を評価し,様々なスペーサー化手法と比較した。
論文 参考訳(メタデータ) (2024-01-12T21:32:04Z) - Balance is Essence: Accelerating Sparse Training via Adaptive Gradient
Correction [29.61757744974324]
ディープニューラルネットワークでは、メモリと計算コストが大幅に削減される。
スパーストレーニングは、これらのコストを削減する最も一般的な手法の1つである。
本研究では,この問題を克服し,時空協調効率の実現を目指す。
論文 参考訳(メタデータ) (2023-01-09T18:50:03Z) - Dimensionality Reduced Training by Pruning and Freezing Parts of a Deep
Neural Network, a Survey [69.3939291118954]
最先端のディープラーニングモデルには、何十億にも達するパラメータカウントがある。そのようなモデルのトレーニング、保存、転送は、エネルギーと時間を要するため、コストがかかる。
モデル圧縮は、ストレージと転送コストを低減し、フォワードおよび/または後方パスでの計算数を減少させることで、トレーニングをより効率的にすることができる。
この研究は、トレーニング全体を通してディープラーニングモデルでトレーニングされた重量を減らす方法に関する調査である。
論文 参考訳(メタデータ) (2022-05-17T05:37:08Z) - MEST: Accurate and Fast Memory-Economic Sparse Training Framework on the
Edge [72.16021611888165]
本稿では,エッジデバイス上での高精度かつ高速な実行を目的とした,メモリ・エコノミクス・スパース・トレーニング(MEST)フレームワークを提案する。
提案されているMESTフレームワークは、Elastic Mutation (EM)とSoft Memory Bound (&S)による拡張で構成されている。
以上の結果から,スペーサマスクの動的探索においても,忘れられない例をその場で特定できることが示唆された。
論文 参考訳(メタデータ) (2021-10-26T21:15:17Z) - A Simple Fine-tuning Is All You Need: Towards Robust Deep Learning Via
Adversarial Fine-tuning [90.44219200633286]
我々は,$textitslow start, fast decay$ learning rate schedulingストラテジーに基づく,単純かつ非常に効果的な敵の微調整手法を提案する。
実験の結果,提案手法はCIFAR-10, CIFAR-100, ImageNetデータセットの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:50:15Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。