論文の概要: Iterative Activation-based Structured Pruning
- arxiv url: http://arxiv.org/abs/2201.09881v1
- Date: Sat, 22 Jan 2022 00:48:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-26 14:33:20.123438
- Title: Iterative Activation-based Structured Pruning
- Title(参考訳): 繰り返し活性化に基づく構造化プルーニング
- Authors: Kaiqi Zhao, Animesh Jain, Ming Zhao
- Abstract要約: 反復的アクティベーションに基づくプルーニングと適応的アクティベーションに基づくプルーニングを提案する。
IAPとAIAPの精度損失は1%に過ぎず、LeNet-5では7.75Xと15.88$X、ResNet-50では1.25Xと1.71Xとなる。
- 参考スコア(独自算出の注目度): 5.445935252764351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying complex deep learning models on edge devices is challenging because
they have substantial compute and memory resource requirements, whereas edge
devices' resource budget is limited. To solve this problem, extensive pruning
techniques have been proposed for compressing networks. Recent advances based
on the Lottery Ticket Hypothesis (LTH) show that iterative model pruning tends
to produce smaller and more accurate models. However, LTH research focuses on
unstructured pruning, which is hardware-inefficient and difficult to accelerate
on hardware platforms.
In this paper, we investigate iterative pruning in the context of structured
pruning because structurally pruned models map well on commodity hardware. We
find that directly applying a structured weight-based pruning technique
iteratively, called iterative L1-norm based pruning (ILP), does not produce
accurate pruned models. To solve this problem, we propose two activation-based
pruning methods, Iterative Activation-based Pruning (IAP) and Adaptive
Iterative Activation-based Pruning (AIAP). We observe that, with only 1%
accuracy loss, IAP and AIAP achieve 7.75X and 15.88$X compression on LeNet-5,
and 1.25X and 1.71X compression on ResNet-50, whereas ILP achieves 4.77X and
1.13X, respectively.
- Abstract(参考訳): エッジデバイスのリソース予算が限られているのに対して、エッジデバイスに複雑なディープラーニングモデルをデプロイするのは、相当な計算とメモリリソースの要求があるため、難しい。
この問題を解決するため、ネットワーク圧縮のための広範囲なプルーニング技術が提案されている。
Lottery Ticket hypothesis (LTH)に基づく最近の進歩は、反復的モデルプルーニングがより小さくより正確なモデルを生成する傾向があることを示している。
しかし、LTH研究はハードウェア非効率でハードウェアプラットフォーム上での高速化が難しい非構造化プルーニングに焦点を当てている。
本稿では,構造的プルーニングモデルがコモディティハードウェアによくマッピングするため,構造的プルーニングの文脈における反復プルーニングについて検討する。
繰り返しL1-norm based pruning (ILP) と呼ばれる構造的重み付きプルーニング法を直接適用しても正確なプルーニングモデルは得られない。
そこで本研究では、IAP(Iterative Activation-based Pruning)とAIAP(Adaptive Iterative Activation-based Pruning)という2つのアクティベーションベースのプルーニング手法を提案する。
IAPとAIAPはLeNet-5では7.75Xと15.88$X、ResNet-50では1.25Xと1.71X、ICPでは4.77Xと1.13Xである。
関連論文リスト
- Comb, Prune, Distill: Towards Unified Pruning for Vision Model Compression [24.119415458653616]
我々はモデル非依存とタスク非依存の両方に同時に対処する新しい統一型刈取フレームワークComb, Prune, Distill (CPD)を提案する。
当社のフレームワークは階層的な階層的な依存性問題を解決するための統合的なステップを採用しており、アーキテクチャの独立性を実現しています。
画像分類では、精度が1.8%、セマンティックセグメンテーションがx1.89、mIoUが5.1%のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-08-06T09:02:31Z) - Everybody Prune Now: Structured Pruning of LLMs with only Forward Passes [72.09861461921663]
我々は,小型で高速かつ高精度な刈り込みモデルを実現するための,勾配のない摂動型刈り込み法を開発した。
また,Hugingface Open LLMリーダーボード上での4/6タスクにおける最先端のパフォーマンスを実現する,単一のA6000を用いた新しいサブ2Bモデルを作成するために,Bonsaiを利用した。
論文 参考訳(メタデータ) (2024-02-08T04:48:26Z) - Automatic Attention Pruning: Improving and Automating Model Pruning
using Attentions [5.445935252764351]
プルーニングは、リソース制約のあるエッジデバイスにそれらをデプロイするために、ディープラーニングモデルを圧縮するための有望なアプローチである。
本稿では,適応型,注意型,構造化型プルーニング手法であるAutomatic Attention Pruning (AAP)を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:47:57Z) - Advancing Model Pruning via Bi-level Optimization [89.88761425199598]
イテレーティブ・マグニチュード・プルーニング(IMP)は,「入賞券」の発見に成功するプルーニング法である
ワンショットプルーニング法が開発されているが、これらのスキームは通常IMPほど勝利のチケットを見つけることができない。
提案手法は,双線形問題構造を持つBLO問題の特別なクラスであることを示す。
論文 参考訳(メタデータ) (2022-10-08T19:19:29Z) - CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。
CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。
CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文 参考訳(メタデータ) (2022-07-28T16:13:28Z) - Structured Pruning is All You Need for Pruning CNNs at Initialization [38.88730369884401]
プルーニングは畳み込みニューラルネットワーク(CNN)のモデルサイズと計算コストを削減する一般的な手法である
ハードウェア効率の良いモデル圧縮方式であるPreCroppingを提案する。
重み付けと比較して, 提案手法は, 精度を犠牲にすることなく, 記憶と計算の両面において規則的で密度が高い。
論文 参考訳(メタデータ) (2022-03-04T19:54:31Z) - Adaptive Activation-based Structured Pruning [5.445935252764351]
プルーニングは、複雑なディープラーニングモデルを圧縮してリソース制約のあるエッジデバイスにデプロイするための、有望なアプローチである。
本稿では, 適応型, アクティベーションベース, 構造化プルーニング手法を用いて, 小型, 高精度, ハードウェア効率のモデルを自動的に, 効率的に生成する手法を提案する。
包括的評価により, 提案手法は, 最先端の構造化プルーニング作業よりも大幅に優れることが示された。
論文 参考訳(メタデータ) (2022-01-21T22:21:31Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z) - Network Pruning via Resource Reallocation [75.85066435085595]
rEsource rEalLocation (PEEL) を経由したネットワーク・プルーニングという,シンプルで効果的なチャネル・プルーニング手法を提案する。
PEELは、最初に事前に定義されたバックボーンを構築し、その上でリソースの移動を行い、少ない情報層からより重要な層へ1ラウンドでパラメータをシフトする。
実験結果から,PEELによって発見された構造は,各種プルーニング条件下での最先端のプルーニングアルゴリズムと競合する性能を示した。
論文 参考訳(メタデータ) (2021-03-02T16:28:10Z) - AACP: Model Compression by Accurate and Automatic Channel Pruning [15.808153503786627]
チャネルプルーニングは近年、ニューラルアーキテクチャサーチ(NAS)問題として定式化されている。
既存のNASベースの手法は、膨大な計算コストとアプリケーションの柔軟性に悩まされている。
本稿では,これらの問題に対処する新しい高精度・自動チャネル・プルーニング法を提案する。
論文 参考訳(メタデータ) (2021-01-31T06:19:29Z) - Network Automatic Pruning: Start NAP and Take a Nap [94.14675930881366]
我々は,粒度および構造化プルーニングのための統一かつ自動プルーニングフレームワークであるNAPを提案する。
ネットワークの重要でないコンポーネントを見つけ出し、異なるレイヤに対する適切な圧縮比を自動的に決定する。
使いやすさにもかかわらず、NAPは以前のプルーニング法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-01-17T07:09:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。