Fugu-MT 論文翻訳(概要): Deep Neural Compression Via Concurrent Pruning and Self-Distillation

論文の概要: Deep Neural Compression Via Concurrent Pruning and Self-Distillation

arxiv url: http://arxiv.org/abs/2109.15014v1
Date: Thu, 30 Sep 2021 11:08:30 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-01 22:15:55.952296
Title: Deep Neural Compression Via Concurrent Pruning and Self-Distillation
Title（参考訳）: コンカレントプルーニングと自己蒸留によるディープニューラル圧縮
Authors: James O' Neill, Sourav Dutta, Haytham Assem
Abstract要約: Pruningは、元のネットワークに近いパフォーマンスを維持しながら、パラメータの数を減らすことを目的としている。本研究は, 新規なエフェレート蒸留法に基づくプルーニング戦略を提案する。自己蒸留プルーニングの相互相関目的がスパース解を暗黙的に促進することを示す。
参考スコア（独自算出の注目度）: 7.448510589632587
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pruning aims to reduce the number of parameters while maintaining performance close to the original network. This work proposes a novel \emph{self-distillation} based pruning strategy, whereby the representational similarity between the pruned and unpruned versions of the same network is maximized. Unlike previous approaches that treat distillation and pruning separately, we use distillation to inform the pruning criteria, without requiring a separate student network as in knowledge distillation. We show that the proposed {\em cross-correlation objective for self-distilled pruning} implicitly encourages sparse solutions, naturally complementing magnitude-based pruning criteria. Experiments on the GLUE and XGLUE benchmarks show that self-distilled pruning increases mono- and cross-lingual language model performance. Self-distilled pruned models also outperform smaller Transformers with an equal number of parameters and are competitive against (6 times) larger distilled networks. We also observe that self-distillation (1) maximizes class separability, (2) increases the signal-to-noise ratio, and (3) converges faster after pruning steps, providing further insights into why self-distilled pruning improves generalization.
Abstract（参考訳）: Pruningは、元のネットワークに近いパフォーマンスを維持しながら、パラメータの数を減らすことを目的としている。本研究は,同一ネットワークのプルーンバージョンと非プルーンバージョン間の表現的類似性を最大化する,新しい<emph{self-distillation}ベースのプルーニング戦略を提案する。蒸留と刈り取りを別々に扱う従来の手法とは異なり、蒸留は知識蒸留のように別の学生ネットワークを必要とせず、刈り取り基準を伝えるために蒸留を用いる。提案した自己蒸留プルーニングの相互相関目的はスパース解を暗黙的に促進し、マグニチュードベースのプルーニング基準を自然に補完することを示す。 GLUE と XGLUE のベンチマーク実験により,単言語および言語間言語モデルの性能が向上した。自己蒸留プルーニングモデルは、同じ数のパラメータを持つ小さなトランスフォーマーよりも優れており、より大きな蒸留ネットワーク(6倍)と競合する。また, 自己蒸留はクラス分離性を最大化し, (2) 信号対雑音比を増加させ, (3) プルーニング後の収束速度を速くし, 自己蒸留プルーニングが一般化を改善できる理由についてさらなる知見を与える。

関連論文リスト

Pruning Everything, Everywhere, All at Once [1.7811840395202343]
ディープラーニングモデルにおけるプルーニング構造は、モデルの複雑さを効率的に低減し、計算効率を向上させる。本稿では,モデル内で異なる構造を抽出できる新しい手法を提案する。このプロセスを反復的に繰り返すことは、元の予測能力を保った非常にスパースなモデルを提供する。
論文参考訳（メタデータ） (2025-06-04T23:34:28Z)
Isomorphic Pruning for Vision Models [56.286064975443026]
構造化プルーニングは、冗長なサブ構造を取り除くことによって、ディープニューラルネットワークの計算オーバーヘッドを低減する。 Isomorphic Pruningは、ネットワークアーキテクチャの範囲で有効性を示すシンプルなアプローチである。
論文参考訳（メタデータ） (2024-07-05T16:14:53Z)
Theoretical Characterization of How Neural Network Pruning Affects its Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文参考訳（メタデータ） (2023-01-01T03:10:45Z)
Gradient-based Intra-attention Pruning on Pre-trained Language Models [21.444503777215637]
本稿では,GRAIN (Gradient-based intra-attention pruning) を用いた構造化プルーニング手法を提案する。 GRAINは、アテンション内構造を検査し、プーンし、構造探索空間を大きく拡張し、より柔軟なモデルを可能にする。 GLUE、SQuAD、CoNLL 2003の実験では、GRAINは特に高頻度で他の手法よりも優れていることが示されている。
論文参考訳（メタデータ） (2022-12-15T06:52:31Z)
Interpretations Steered Network Pruning via Amortized Inferred Saliency Maps [85.49020931411825]
限られたリソースを持つエッジデバイスにこれらのモデルをデプロイするには、畳み込みニューラルネットワーク(CNN)圧縮が不可欠である。本稿では,新しい視点からチャネルプルーニング問題に対処するために,モデルの解釈を活用して,プルーニング過程を解析する手法を提案する。本研究では,実時間スムーズなスムーズなスムーズなスムーズなマスク予測を行うセレクタモデルを導入することで,この問題に対処する。
論文参考訳（メタデータ） (2022-09-07T01:12:11Z)
Structured Pruning Learns Compact and Accurate Models [28.54826400747667]
タスク固有の構造化プルーニング法CoFi(粗粒および細粒のプルーニング)を提案する。 CoFiは高度に並列化可能なワークを提供し、蒸留方法を精度とレイテンシの両方で一致させる。 GLUEおよびSQuADデータセットを用いた実験により、CoFiは10倍以上のスピードアップと小さな精度低下でモデルを生成することが示された。
論文参考訳（メタデータ） (2022-04-01T13:09:56Z)
Sparse Progressive Distillation: Resolving Overfitting under Pretrain-and-Finetune Paradigm [7.662952656290564]
トランスフォーマーベースの言語モデルのフットプリント要求を減らすために、様々なプルーニング手法が提案されている。オーバーフィッティングのリスクを減らすことが,プレトレイン・アンド・ファインチューンパラダイムの下での刈り込みの有効性を初めて示す。
論文参考訳（メタデータ） (2021-10-15T16:42:56Z)
Sparse Training via Boosting Pruning Plasticity with Neuroregeneration [79.78184026678659]
本研究では, プラスティック性の観点から, 訓練を通しての刈り込みの効果について検討した。ゼロコスト神経再生(GraNet)と動的スパーストレーニング(DST)変異(GraNet-ST)を併用した段階的プラニング(gradual pruning)法を考案した。おそらく最も印象的なのは、ImageNet上のResNet-50との大きなマージンで、さまざまな密集したスパースメソッドに対するスパース・ツー・スパーストレーニングのパフォーマンスを初めて向上させたことだ。
論文参考訳（メタデータ） (2021-06-19T02:09:25Z)
MLPruning: A Multilevel Structured Pruning Framework for Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文参考訳（メタデータ） (2021-05-30T22:00:44Z)
Even your Teacher Needs Guidance: Ground-Truth Targets Dampen Regularization Imposed by Self-Distillation [0.0]
ネットワークアーキテクチャが同一である自己蒸留は、一般化精度を向上させるために観測されている。我々は, 逐次ステップがモデル出力と接地目標の両方を組み込む, カーネル回帰設定における自己蒸留の反復的変種を考える。自己蒸留により得られるそのような関数は、初期フィットの関数として直接計算でき、無限蒸留ステップは増幅正規化により元のものと同じ最適化問題をもたらす。
論文参考訳（メタデータ） (2021-02-25T18:56:09Z)
Neural Pruning via Growing Regularization [82.9322109208353]
プルーニングの2つの中心的な問題:プルーニングのスケジュールと重み付けの重要度だ。具体的には, ペナルティ要因が増大するL2正規化変種を提案し, 精度が著しく向上することを示した。提案アルゴリズムは,構造化プルーニングと非構造化プルーニングの両方において,大規模データセットとネットワークの実装が容易かつスケーラブルである。
論文参考訳（メタデータ） (2020-12-16T20:16:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。