Fugu-MT 論文翻訳(概要): When to Prune? A Policy towards Early Structural Pruning

論文の概要: When to Prune? A Policy towards Early Structural Pruning

arxiv url: http://arxiv.org/abs/2110.12007v1
Date: Fri, 22 Oct 2021 18:39:22 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-01 03:44:39.785669
Title: When to Prune? A Policy towards Early Structural Pruning
Title（参考訳）: Pruneはいつ? 初期構造プランニングへの取り組み
Authors: Maying Shen, Pavlo Molchanov, Hongxu Yin, Jose M. Alvarez
Abstract要約: 我々は,パフォーマンスを損なうことなく,できるだけ早期に訓練を行う政策を提案する。我々の方法では、最先端のプルーニングに比べて1.4%の精度でトップ1の精度が向上し、GPUのトレーニングコストを2.4%削減する。
参考スコア（独自算出の注目度）: 27.91996628143805
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pruning enables appealing reductions in network memory footprint and time complexity. Conventional post-training pruning techniques lean towards efficient inference while overlooking the heavy computation for training. Recent exploration of pre-training pruning at initialization hints on training cost reduction via pruning, but suffers noticeable performance degradation. We attempt to combine the benefits of both directions and propose a policy that prunes as early as possible during training without hurting performance. Instead of pruning at initialization, our method exploits initial dense training for few epochs to quickly guide the architecture, while constantly evaluating dominant sub-networks via neuron importance ranking. This unveils dominant sub-networks whose structures turn stable, allowing conventional pruning to be pushed earlier into the training. To do this early, we further introduce an Early Pruning Indicator (EPI) that relies on sub-network architectural similarity and quickly triggers pruning when the sub-network's architecture stabilizes. Through extensive experiments on ImageNet, we show that EPI empowers a quick tracking of early training epochs suitable for pruning, offering same efficacy as an otherwise ``oracle'' grid-search that scans through epochs and requires orders of magnitude more compute. Our method yields $1.4\%$ top-1 accuracy boost over state-of-the-art pruning counterparts, cuts down training cost on GPU by $2.4\times$, hence offers a new efficiency-accuracy boundary for network pruning during training.
Abstract（参考訳）: プルーニングにより、ネットワークメモリのフットプリントと時間の複雑さが大幅に削減される。従来のトレーニング後のプルーニング技術は、トレーニングのための重い計算を見下ろしながら、効率的な推論に傾いている。初期化におけるプレトレーニングプルーニングの最近の調査は、プルーニングによるトレーニングコスト削減を示唆しているが、顕著な性能劣化に悩まされている。両方向のメリットを組み合わせて,パフォーマンスを損なうことなく,トレーニング中に可能な限り早期に実施する方針を提案する。初期化をpruningする代わりに,初期集中トレーニングを少数のエポックで活用し,アーキテクチャを素早く導くと同時に,ニューロン重要度ランキングを通じて支配的サブネットワークを常に評価する。これにより、構造が安定する支配的なサブネットワークが出現し、従来の刈り取りがトレーニングに早く押し込まれるようになる。これを早期に行うために、サブネットワークアーキテクチャの類似性に依存し、サブネットワークのアーキテクチャが安定すると即座にプルーニングをトリガーするEarly Pruning Indicator (EPI)を導入する。 ImageNet上での広範な実験を通じて、EPIはプルーニングに適した早期トレーニングのエポックを素早く追跡し、エポックをスキャンし、桁違いの計算を必要とする 'oracle' グリッド検索と同じ効果を提供することを示した。我々の方法は、最先端のプルーニングに比べて1.4\%の精度で1.4\%向上し、GPUのトレーニングコストを2.4\times$に削減し、トレーニング中のネットワークプルーニングのための新たな効率-精度境界を提供する。

関連論文リスト

One-cycle Structured Pruning with Stability Driven Structure Search [20.18712941647407]
既存の構造化プルーニングは、しばしば重い計算を必要とする多段階の訓練手順を必要とする。モデル性能を損なうことなく, 一サイクル構造化プルーニングのための効率的なフレームワークを提案する。本手法は, 訓練時間において, 最も効率的な刈り出しフレームワークの1つでありながら, 最先端の精度を実現する。
論文参考訳（メタデータ） (2025-01-23T07:46:48Z)
DRIVE: Dual Gradient-Based Rapid Iterative Pruning [2.209921757303168]
現代のディープニューラルネットワーク(DNN)は、数百万のパラメータで構成され、トレーニングと推論中にハイパフォーマンスコンピューティングを必要とする。学習後推論の合理化に焦点をあてた従来の刈り込み手法は, 訓練前の刈り込みによって早期に疎水性を活用する試みが近年行われている。創発に固有のランダム性に対処するために,初期エポックに対する濃密なトレーニングを活用するDual Gradient-Based Rapid Iterative Pruning (DRIVE)を提案する。
論文参考訳（メタデータ） (2024-04-01T20:44:28Z)
Prospect Pruning: Finding Trainable Weights at Initialization using Meta-Gradients [36.078414964088196]
初期化時にニューラルネットワークをプルーニングすることで、元のネットワークの精度を保ったスパースモデルを見つけることができる。現在の方法は、この最適化を可能にするには不十分であり、モデル性能の大幅な低下につながります。提案するProspect Pruning(ProsPr)は,最適化の最初の数ステップを通じてメタグラディエントを用いて,どの重み付けを行うかを決定する。本手法は,従来のプルーニング・アット・初期化手法と比較して,データの少ない1ショットで,様々な視覚分類タスクにおける最先端のプルーニング性能を実現する。
論文参考訳（メタデータ） (2022-02-16T15:18:55Z)
The Unreasonable Effectiveness of Random Pruning: Return of the Most Naive Baseline for Sparse Training [111.15069968583042]
ランダムプルーニングは、ニューラルネットワークのスパーシティを実現する最も単純な方法であることは間違いないが、トレーニング後のプルーニングやスパーストレーニングでは非競争的であると見なされている。我々は、スクラッチからランダムに切断されたネットワークをスクラッチからスクラッチ的に訓練することで、その密度の高い等価性の性能に一致することを実証的に実証した。以上の結果から,大規模なスパーストレーニングを行う余地はより大きいことが示唆され,スポーシティのメリットは慎重に設計されたプルーニングを超えて普遍的である可能性が示唆された。
論文参考訳（メタデータ） (2022-02-05T21:19:41Z)
Sparse Training via Boosting Pruning Plasticity with Neuroregeneration [79.78184026678659]
本研究では, プラスティック性の観点から, 訓練を通しての刈り込みの効果について検討した。ゼロコスト神経再生(GraNet)と動的スパーストレーニング(DST)変異(GraNet-ST)を併用した段階的プラニング(gradual pruning)法を考案した。おそらく最も印象的なのは、ImageNet上のResNet-50との大きなマージンで、さまざまな密集したスパースメソッドに対するスパース・ツー・スパーストレーニングのパフォーマンスを初めて向上させたことだ。
論文参考訳（メタデータ） (2021-06-19T02:09:25Z)
Neural Pruning via Growing Regularization [82.9322109208353]
プルーニングの2つの中心的な問題:プルーニングのスケジュールと重み付けの重要度だ。具体的には, ペナルティ要因が増大するL2正規化変種を提案し, 精度が著しく向上することを示した。提案アルゴリズムは,構造化プルーニングと非構造化プルーニングの両方において,大規模データセットとネットワークの実装が容易かつスケーラブルである。
論文参考訳（メタデータ） (2020-12-16T20:16:28Z)
Single Shot Structured Pruning Before Training [34.34435316622998]
我々の研究は、トレーニングと推論をスピードアップすることを目的として、チャネル全体と隠れたユニットを除去する方法論を開発した。本稿では,FLOP毎の感度単位のプルーニングを可能とし,より高速なアップを可能にする計算対応スコアリング機構を提案する。
論文参考訳（メタデータ） (2020-07-01T11:27:37Z)
Rapid Structural Pruning of Neural Networks with Set-based Task-Adaptive Meta-Pruning [83.59005356327103]
既存のプルーニング技術に共通する制限は、プルーニングの前に少なくとも1回はネットワークの事前トレーニングが必要であることである。本稿では,ターゲットデータセットの関数としてプルーニングマスクを生成することにより,大規模な参照データセット上で事前訓練されたネットワークをタスク適応的にプルークするSTAMPを提案する。ベンチマークデータセット上での最近の先進的なプルーニング手法に対するSTAMPの有効性を検証する。
論文参考訳（メタデータ） (2020-06-22T10:57:43Z)
Progressive Skeletonization: Trimming more fat from a network at initialization [76.11947969140608]
本稿では,接続感度が最大となるスケルトン化ネットワークを提案する。次に、目的を最大化する2つの近似手順を提案する。提案手法は, 高い刈り込みレベルにおいて, 性能を著しく向上させる。
論文参考訳（メタデータ） (2020-06-16T11:32:47Z)
Pruning via Iterative Ranking of Sensitivity Statistics [0.0]
トレーニング前の小さなステップで、感度基準を反復的に適用することで、実装が難しいことなしにパフォーマンスを向上させることができることを示す。次に、構造化プルーニングと非構造化プルーニングの両方に適用可能であり、かつ、最先端のスペーサリティ・パフォーマンストレードオフを達成可能であることを実証する。
論文参考訳（メタデータ） (2020-06-01T12:48:53Z)
Robust Pruning at Initialization [61.30574156442608]
計算リソースが限られているデバイス上で、機械学習アプリケーションを使用するための、より小さく、エネルギー効率のよいニューラルネットワークの必要性が高まっている。ディープNNにとって、このような手順はトレーニングが困難であり、例えば、ひとつの層が完全に切断されるのを防ぐことができないため、満足できないままである。
論文参考訳（メタデータ） (2020-02-19T17:09:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。