Fugu-MT 論文翻訳(概要): EPSD: Early Pruning with Self-Distillation for Efficient Model Compression

論文の概要: EPSD: Early Pruning with Self-Distillation for Efficient Model Compression

arxiv url: http://arxiv.org/abs/2402.00084v1
Date: Wed, 31 Jan 2024 05:39:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-02 17:49:38.190742
Title: EPSD: Early Pruning with Self-Distillation for Efficient Model Compression
Title（参考訳）: EPSD : 自己蒸留によるモデル圧縮の効率化
Authors: Dong Chen, Ning Liu, Yichen Zhu, Zhengping Che, Rui Ma, Fachao Zhang, Xiaofeng Mou, Yi Chang, Jian Tang
Abstract要約: EPSD(Early Pruning with Self-Distillation)というフレームワークを提案する。 EPSDは、2段階のプロセスで早期刈り込みと自己蒸留を効率的に組み合わせる。我々はEPSDが視覚的および定量的解析によって支援され、刈り取られたネットワークのトレーニングを改善することを実証した。
参考スコア（独自算出の注目度）: 35.07034997828657
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural network compression techniques, such as knowledge distillation (KD) and network pruning, have received increasing attention. Recent work `Prune, then Distill' reveals that a pruned student-friendly teacher network can benefit the performance of KD. However, the conventional teacher-student pipeline, which entails cumbersome pre-training of the teacher and complicated compression steps, makes pruning with KD less efficient. In addition to compressing models, recent compression techniques also emphasize the aspect of efficiency. Early pruning demands significantly less computational cost in comparison to the conventional pruning methods as it does not require a large pre-trained model. Likewise, a special case of KD, known as self-distillation (SD), is more efficient since it requires no pre-training or student-teacher pair selection. This inspires us to collaborate early pruning with SD for efficient model compression. In this work, we propose the framework named Early Pruning with Self-Distillation (EPSD), which identifies and preserves distillable weights in early pruning for a given SD task. EPSD efficiently combines early pruning and self-distillation in a two-step process, maintaining the pruned network's trainability for compression. Instead of a simple combination of pruning and SD, EPSD enables the pruned network to favor SD by keeping more distillable weights before training to ensure better distillation of the pruned network. We demonstrated that EPSD improves the training of pruned networks, supported by visual and quantitative analyses. Our evaluation covered diverse benchmarks (CIFAR-10/100, Tiny-ImageNet, full ImageNet, CUB-200-2011, and Pascal VOC), with EPSD outperforming advanced pruning and SD techniques.
Abstract（参考訳）: 知識蒸留(KD)やネットワークプルーニングなどのニューラルネットワーク圧縮技術が注目されている。近年の「Prune, then Distill」は、学生が親しみやすい教師ネットワークがKDの性能に寄与することを示した。しかし,教師の煩雑な事前訓練と複雑な圧縮ステップを伴う従来の教師学習パイプラインは,kdによる刈り取りの効率を低下させる。圧縮モデルに加えて、最近の圧縮技術は効率の面も強調している。早期刈り込み要求は、大規模な事前訓練モデルを必要としないため、従来の刈り込み法と比較して計算コストを著しく削減する。同様に、kdの特別な場合である自己蒸留(sd)は、事前訓練や学生と教師のペアの選択を必要としないため、より効率的である。これにより、高速なモデル圧縮のために、早期にSDと協調するインスピレーションが得られます。本研究では,あるSDタスクの早期処理において,蒸留可能重量を特定し保存するEPSD(Early Pruning with Self-Distillation)というフレームワークを提案する。 EPSDは2段階のプロセスで早期刈り込みと自己蒸留を効率よく組み合わせ、刈り込みネットワークの圧縮訓練性を維持する。プルーニングとsdの単純な組み合わせではなく、epsdはプルーニングされたネットワークがより蒸留可能な重みをトレーニング前に保持することで、プルーニングされたネットワークをより良く蒸留することを可能にする。我々はepsdが視覚的および定量的解析によりprunedネットワークのトレーニングを改善することを実証した。評価では,CIFAR-10/100, Tiny-ImageNet, full ImageNet, CUB-200-2011, Pascal VOCの多種多様なベンチマークについて検討した。

関連論文リスト

DRIVE: Dual Gradient-Based Rapid Iterative Pruning [2.209921757303168]
現代のディープニューラルネットワーク(DNN)は、数百万のパラメータで構成され、トレーニングと推論中にハイパフォーマンスコンピューティングを必要とする。学習後推論の合理化に焦点をあてた従来の刈り込み手法は, 訓練前の刈り込みによって早期に疎水性を活用する試みが近年行われている。創発に固有のランダム性に対処するために,初期エポックに対する濃密なトレーニングを活用するDual Gradient-Based Rapid Iterative Pruning (DRIVE)を提案する。
論文参考訳（メタデータ） (2024-04-01T20:44:28Z)
PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。 PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文参考訳（メタデータ） (2024-03-14T09:06:49Z)
Distilling the Knowledge in Data Pruning [4.720247265804016]
刈り込みサブセットのトレーニングにおいて,知識蒸留(KD)を取り入れたデータ刈り込みの適用について検討する。我々は、データセット、プルーニング方法、および全てのプルーニング率において、大幅な改善を示す。興味をそそる観察を行ない、より低いプルーニング率を使用すると、より大きな教師が精度を低下させ、驚くべきことに、学生よりも少ない能力の教師を雇うことで、結果が改善する可能性がある。
論文参考訳（メタデータ） (2024-03-12T17:44:45Z)
DIVISION: Memory Efficient Training via Dual Activation Precision [60.153754740511864]
最先端の研究は、量子化ビット幅の探索とトレーニングを組み合わせることで、手順を複雑にし、透明性を損なう。そこで本研究では,DNNトレーニングを簡易かつ効果的に圧縮する手法を提案する。実験結果によると、DIVISIONは10倍以上のアクティベーションマップの圧縮や、モデルの精度を損なうことなく、競争訓練のスループットなど、最先端の手法よりも総合的な性能を示している。
論文参考訳（メタデータ） (2022-08-05T03:15:28Z)
CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。 CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。 CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文参考訳（メタデータ） (2022-07-28T16:13:28Z)
Self-Distillation from the Last Mini-Batch for Consistency Regularization [14.388479145440636]
我々は、Last Mini-Batch (DLB) からの自己蒸留という、効率的で信頼性の高い自己蒸留フレームワークを提案する。提案手法はトレーニングの安定性と一貫性を導出し,ノイズのラベル付けに堅牢性をもたらす。 3つの分類ベンチマークによる実験結果から、我々の手法は最先端の自己蒸留手法より一貫して優れていることが示された。
論文参考訳（メタデータ） (2022-03-30T09:50:24Z)
PPCD-GAN: Progressive Pruning and Class-Aware Distillation for Large-Scale Conditional GANs Compression [31.528677471224633]
我々は,大規模条件生成対向ネットワーク(GAN)圧縮において,新たな課題を生かして,ニューラルネットワーク圧縮の研究を推し進める。本稿では, プログレッシブプルーニング残差ブロック (PP-Res) とクラス認識蒸留を導入することで, 徐々に縮小するGAN (PPCD-GAN) を提案する。 ImageNet 128x128データセットで、PPCD-GANはパフォーマンスを向上しつつ、最先端技術に対するパラメータを最大5.2倍(81%)削減します。
論文参考訳（メタデータ） (2022-03-16T08:26:05Z)
When to Prune? A Policy towards Early Structural Pruning [27.91996628143805]
我々は,パフォーマンスを損なうことなく,できるだけ早期に訓練を行う政策を提案する。我々の方法では、最先端のプルーニングに比べて1.4%の精度でトップ1の精度が向上し、GPUのトレーニングコストを2.4%削減する。
論文参考訳（メタデータ） (2021-10-22T18:39:22Z)
Sparse Training via Boosting Pruning Plasticity with Neuroregeneration [79.78184026678659]
本研究では, プラスティック性の観点から, 訓練を通しての刈り込みの効果について検討した。ゼロコスト神経再生(GraNet)と動的スパーストレーニング(DST)変異(GraNet-ST)を併用した段階的プラニング(gradual pruning)法を考案した。おそらく最も印象的なのは、ImageNet上のResNet-50との大きなマージンで、さまざまな密集したスパースメソッドに対するスパース・ツー・スパーストレーニングのパフォーマンスを初めて向上させたことだ。
論文参考訳（メタデータ） (2021-06-19T02:09:25Z)
An Efficient Statistical-based Gradient Compression Technique for Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。 SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文参考訳（メタデータ） (2021-01-26T13:06:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。