Fugu-MT 論文翻訳(概要): Pushing the Limits of Sparsity: A Bag of Tricks for Extreme Pruning

論文の概要: Pushing the Limits of Sparsity: A Bag of Tricks for Extreme Pruning

arxiv url: http://arxiv.org/abs/2411.13545v2
Date: Thu, 21 Nov 2024 18:34:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.564994
Title: Pushing the Limits of Sparsity: A Bag of Tricks for Extreme Pruning
Title（参考訳）: スパシティの限界を押し上げる:極端刈り込みのためのトリックの袋
Authors: Andy Li, Aiden Durrant, Milan Markovic, Lu Yin, Georgios Leontidis,
Abstract要約: ディープニューラルネットワークのプルーニングは、高密度ネットワークの性能の大部分を保ちながら、モデルサイズの削減に有効な手法である。最近のスパース学習法では、95%や98%といった中等度の疎度レベルまで有望な性能を示している。極端に間隔があっても精度が崩れることなくネットワークの連続的な学習を可能にする手法の集合を提案する。
参考スコア（独自算出の注目度）: 4.421875265386832
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pruning of deep neural networks has been an effective technique for reducing model size while preserving most of the performance of dense networks, crucial for deploying models on memory and power-constrained devices. While recent sparse learning methods have shown promising performance up to moderate sparsity levels such as 95% and 98%, accuracy quickly deteriorates when pushing sparsities to extreme levels. Obtaining sparse networks at such extreme sparsity levels presents unique challenges, such as fragile gradient flow and heightened risk of layer collapse. In this work, we explore network performance beyond the commonly studied sparsities, and propose a collection of techniques that enable the continuous learning of networks without accuracy collapse even at extreme sparsities, including 99.90%, 99.95% and 99.99% on ResNet architectures. Our approach combines 1) Dynamic ReLU phasing, where DyReLU initially allows for richer parameter exploration before being gradually replaced by standard ReLU, 2) weight sharing which reuses parameters within a residual layer while maintaining the same number of learnable parameters, and 3) cyclic sparsity, where both sparsity levels and sparsity patterns evolve dynamically throughout training to better encourage parameter exploration. We evaluate our method, which we term Extreme Adaptive Sparse Training (EAST) at extreme sparsities using ResNet-34 and ResNet-50 on CIFAR-10, CIFAR-100, and ImageNet, achieving significant performance improvements over state-of-the-art methods we compared with.
Abstract（参考訳）: ディープニューラルネットワークのプルーニングは、高密度ネットワークの性能の大部分を保ちながら、モデルサイズの削減に有効な手法であり、メモリや電力制約のあるデバイスにモデルを展開する上で不可欠である。最近のスパース学習法では、95%や98%のような中等度な空間レベルまで有望な性能を示す一方で、極度の空間レベルに押し上げると、精度が急速に低下する。このような極端に疎度なレベルでスパースネットワークを維持することは、脆弱な勾配流や層崩壊のリスクを高めるなど、ユニークな課題を示す。本研究では、一般に研究されている空間を超えたネットワーク性能について検討し、ResNetアーキテクチャの99.90%、99.95%、99.99%を含む極端な空間においても、精度の低下のないネットワークの継続的な学習を可能にする技術群を提案する。私たちのアプローチは組み合わさる 1) 動的ReLU処理では、DyReLUは徐々に標準ReLUに置き換わる前に、よりリッチなパラメータ探索を可能にする。 2)残層内のパラメータを同じ数の学習可能なパラメータを維持しながら再利用する重み共有。 3) 周期的疎度では, 空間的疎度レベルと空間的疎度パターンがトレーニングを通して動的に進化し, パラメータ探索の促進が図られた。我々は,CIFAR-10,CIFAR-100,ImageNet上でResNet-34,ResNet-50を用いて,極端に広範にEAST(Extreme Adaptive Sparse Training)と呼ぶ手法を評価する。

関連論文リスト

CBPNet: A Continual Backpropagation Prompt Network for Alleviating Plasticity Loss on Edge Devices [16.318540474216416]
塑性の低下は、トレーニング過程において未利用パラメータの更新活力の欠如に起因していると論じる。本稿では,モデルの学習活力を回復するための有効かつパラメータ効率の高いフレームワークである連続バックプロパゲーション・プロンプト・ネットワーク(CBPNet)を提案する。
論文参考訳（メタデータ） (2025-09-19T09:16:54Z)
Network Sparsity Unlocks the Scaling Potential of Deep Reinforcement Learning [57.3885832382455]
静的ネットワークの疎結合を単独で導入することで,最先端アーキテクチャの高密度化を超えて,さらなるスケーリング可能性を実現することができることを示す。解析の結果,高密度DRLネットワークをネーティブにスケールアップするのとは対照的に,疎ネットワークは高いパラメータ効率とネットワーク表現性を両立させることがわかった。
論文参考訳（メタデータ） (2025-06-20T17:54:24Z)
Signal Collapse in One-Shot Pruning: When Sparse Models Fail to Distinguish Neural Representations [2.209921757303168]
重み選択を最適化するのではなく、緩和信号の崩壊がプルーニングネットワークの精度向上の鍵であることを示す。トレーニング可能な重みを更新することなく,信号の崩壊に対処するREFLOWを提案する。我々は、ResNeXt101の精度をImageNetで4.1%未満から78.9%に復元し、重量の20%しか残っていない。
論文参考訳（メタデータ） (2025-02-18T15:47:33Z)
UniPTS: A Unified Framework for Proficient Post-Training Sparsity [67.16547529992928]
Post-Traiing Sparsity (PTS)は、必要な限られたデータで効率的なネットワークスパシティを追求する、新たに登場した道である。本稿では,従来のスパシティの性能をPSSの文脈に大きく変化させる3つの基本因子を変換することで,この相違を解消しようとする。我々のフレームワークはUniPTSと呼ばれ、広範囲のベンチマークで既存のPTSメソッドよりも優れていることが検証されている。
論文参考訳（メタデータ） (2024-05-29T06:53:18Z)
Enhanced Sparsification via Stimulative Training [36.0559905521154]
既存の方法では、減量重みの重要性を抑制するために、時差による罰則を設定するのが一般的である。本稿では,拡張スパシフィケーションパラダイムに基づく,表現性という構造的プルーニングフレームワークを提案する。蒸留の容量ギャップを小さくするため, 変異膨張法を提案する。
論文参考訳（メタデータ） (2024-03-11T04:05:17Z)
Dynamic Sparse Training via Balancing the Exploration-Exploitation Trade-off [19.230329532065635]
スパーストレーニングは、モデルサイズを減らすことで、トレーニングコストを大幅に削減する可能性がある。既存のスパーストレーニング方法は、主にランダムベースまたはグリーディベースのドロップ・アンド・グロー戦略を使用する。本研究では,動的スパース学習をスパース接続探索問題として考察する。実験の結果,提案手法により得られたスパースモデル(最大98%のスパース)は,SOTAスパース訓練法より優れていた。
論文参考訳（メタデータ） (2022-11-30T01:22:25Z)
Controlled Sparsity via Constrained Optimization or: How I Learned to Stop Tuning Penalties and Love Constraints [81.46143788046892]
スパースラーニングを行う際には,スパーシティのレベルを制御するタスクに焦点をあてる。スパーシリティを誘発する罰則に基づく既存の方法は、ペナルティファクターの高価な試行錯誤チューニングを含む。本稿では,学習目標と所望のスパーシリティ目標によって,エンドツーエンドでスペーシフィケーションをガイドする制約付き定式化を提案する。
論文参考訳（メタデータ） (2022-08-08T21:24:20Z)
FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文参考訳（メタデータ） (2022-04-10T11:38:33Z)
Sparsity Winning Twice: Better Robust Generalization from More Efficient Training [94.92954973680914]
スパース対位訓練の代替として, (i) スタティック・スパシティと (ii) ダイナミック・スパシティの2つを紹介した。いずれの方法も、ロバストな一般化ギャップを大幅に縮小し、ロバストなオーバーフィッティングを緩和する。我々のアプローチは既存の正規化器と組み合わせて、敵の訓練における新たな最先端の成果を確立することができる。
論文参考訳（メタデータ） (2022-02-20T15:52:08Z)
Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2021-10-01T10:03:57Z)
Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文参考訳（メタデータ） (2021-06-18T01:03:13Z)
Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文参考訳（メタデータ） (2021-03-10T03:59:03Z)
Enabling Retrain-free Deep Neural Network Pruning using Surrogate Lagrangian Relaxation [2.691929135895278]
サロゲート・ラグランジアン・リラクゼーション(SLR)に基づく体系的な軽量化最適化手法を開発。 SLRは、同じ精度で最先端技術よりも高い圧縮率を達成する。再学習の予算が限られているため,本手法はモデル精度を迅速に回復する。
論文参考訳（メタデータ） (2020-12-18T07:17:30Z)
HALO: Learning to Prune Neural Networks with Shrinkage [5.283963846188862]
ディープニューラルネットワークは、構造化されていないデータから豊富な特徴セットを抽出することにより、さまざまなタスクで最先端のパフォーマンスを実現する。提案手法は,(1)ネットワークプルーニング,(2)スパシティ誘導ペナルティによるトレーニング,(3)ネットワークの重みと連動してバイナリマスクをトレーニングすることである。トレーニング可能なパラメータを用いて、与えられたネットワークの重みを適応的に分散化することを学ぶ階層適応ラッソ(Hierarchical Adaptive Lasso)という新しいペナルティを提案する。
論文参考訳（メタデータ） (2020-08-24T04:08:48Z)
Picking Winning Tickets Before Training by Preserving Gradient Flow [9.67608102763644]
効率的なトレーニングには,ネットワーク内の勾配流の保存が必要である,と我々は主張する。 CIFAR-10, CIFAR-100, Tiny-ImageNet, ImageNetにおいて, 提案手法の有効性を実験的に検討した。
論文参考訳（メタデータ） (2020-02-18T05:14:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。