論文の概要: Separate, Dynamic and Differentiable (SMART) Pruner for Block/Output Channel Pruning on Computer Vision Tasks
- arxiv url: http://arxiv.org/abs/2403.19969v1
- Date: Fri, 29 Mar 2024 04:28:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 16:34:41.906332
- Title: Separate, Dynamic and Differentiable (SMART) Pruner for Block/Output Channel Pruning on Computer Vision Tasks
- Title(参考訳): コンピュータビジョンタスクにおけるブロック/出力チャネルプルーニングのための分離・動的・微分可能(SMART)プルーナ
- Authors: Guanhua Ding, Zexi Ye, Zhen Zhong, Gang Li, David Shao,
- Abstract要約: Deep Neural Network(DNN)プルーニングは、モデルサイズを削減し、レイテンシを改善し、アクセラレータの消費電力を削減するための重要な戦略として登場した。
ブロックおよび出力チャネルプルーニングのための分離された動的かつ微分可能な()プルーナを導入する。
実験では,SMARTプルーナーは既存のプルーニング法よりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 6.199556554833467
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep Neural Network (DNN) pruning has emerged as a key strategy to reduce model size, improve inference latency, and lower power consumption on DNN accelerators. Among various pruning techniques, block and output channel pruning have shown significant potential in accelerating hardware performance. However, their accuracy often requires further improvement. In response to this challenge, we introduce a separate, dynamic and differentiable (SMART) pruner. This pruner stands out by utilizing a separate, learnable probability mask for weight importance ranking, employing a differentiable Top k operator to achieve target sparsity, and leveraging a dynamic temperature parameter trick to escape from non-sparse local minima. In our experiments, the SMART pruner consistently demonstrated its superiority over existing pruning methods across a wide range of tasks and models on block and output channel pruning. Additionally, we extend our testing to Transformer-based models in N:M pruning scenarios, where SMART pruner also yields state-of-the-art results, demonstrating its adaptability and robustness across various neural network architectures, and pruning types.
- Abstract(参考訳): Deep Neural Network(DNN)プルーニングは、モデルサイズを削減し、推論レイテンシを改善し、DNNアクセラレータの消費電力を削減するための重要な戦略として登場した。
様々なプルーニング技術の中で、ブロックおよび出力チャネルプルーニングは、ハードウェア性能を加速する大きな可能性を示している。
しかし、その精度は、しばしばさらなる改善を必要とする。
この課題に応えて、我々は分離された動的かつ微分可能なプルナー(SMART)を導入する。
本発明のプルーナーは、個別の学習可能な確率マスクをウェイト重要度ランキングに利用し、微分可能なトップk演算子を用いて目標空隙を達成し、非スパース局所ミニマから逃れるために動的温度パラメータのトリックを活用することで際立っている。
我々の実験では、SMARTプルーナーは、ブロックおよび出力チャネルプルーニングにおける、幅広いタスクおよびモデルにわたる既存のプルーニング手法よりも、一貫してその優位性を実証した。
さらに、テストはN:MプルーニングシナリオのTransformerベースのモデルに拡張します。SMARTプルーナーは、さまざまなニューラルネットワークアーキテクチャにまたがる適応性と堅牢性、およびプルーニングタイプを示す、最先端の結果も生成します。
関連論文リスト
- Differentiable Weightless Neural Networks [1.453874055504475]
本稿では,相互接続型ルックアップテーブルに基づくモデルであるDWNを提案する。
本稿では,これらのモデルの精度と効率をさらに向上させるために,学習可能なマッピング,学習可能なリダクション,スペクトル正規化を提案する。
論文 参考訳(メタデータ) (2024-10-14T21:43:48Z) - Stochastic Configuration Machines: FPGA Implementation [4.57421617811378]
コンフィグレーションネットワーク(SCN)は、データモデリングのメリットと実現可能性から、産業アプリケーションにおいて主要な選択肢である。
本稿では、フィールドプログラマブルゲートアレイ(FPGA)にSCMモデルを実装し、学習性能を向上させるためにバイナリコード入力を導入することを目的とする。
論文 参考訳(メタデータ) (2023-10-30T02:04:20Z) - Efficient Controllable Multi-Task Architectures [85.76598445904374]
本稿では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。
我々のキーとなる考え方は、タスク固有のデコーダの容量を変化させ、計算コストの総和を制御し、タスクの重要度を制御することである。
これにより、与えられた予算に対してより強力なエンコーダを許可し、計算コストの制御を高め、高品質のスリム化サブアーキテクチャを提供することにより、全体的な精度を向上させる。
論文 参考訳(メタデータ) (2023-08-22T19:09:56Z) - KECOR: Kernel Coding Rate Maximization for Active 3D Object Detection [48.66703222700795]
我々は、ラベルの取得に最も有用なポイントクラウドを特定するために、新しいカーネル戦略を利用する。
1段目(SECOND)と2段目(SECOND)の両方に対応するため、アノテーションに選択した境界ボックスの総数と検出性能のトレードオフをよく組み込んだ分類エントロピー接点を組み込んだ。
その結果,ボックスレベルのアノテーションのコストは約44%,計算時間は26%削減された。
論文 参考訳(メタデータ) (2023-07-16T04:27:03Z) - Algorithm to Compilation Co-design: An Integrated View of Neural Network
Sparsity [0.8566457170664925]
BERT言語モデルの変圧器ブロックの重み付けに構造化および非構造化プルーニングを適用した。
本研究では,モデル決定と空間的拡張実行に対する直接的影響の関係について検討する。
論文 参考訳(メタデータ) (2021-06-16T15:13:26Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z) - A Privacy-Preserving-Oriented DNN Pruning and Mobile Acceleration
Framework [56.57225686288006]
モバイルエッジデバイスの限られたストレージとコンピューティング能力を満たすために、ディープニューラルネットワーク(DNN)の軽量プルーニングが提案されている。
従来のプルーニング手法は主に、ユーザデータのプライバシを考慮せずに、モデルのサイズを減らしたり、パフォーマンスを向上させることに重点を置いていた。
プライベートトレーニングデータセットを必要としないプライバシ保護指向のプルーニングおよびモバイルアクセラレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T23:52:03Z) - Triple Wins: Boosting Accuracy, Robustness and Efficiency Together by
Enabling Input-Adaptive Inference [119.19779637025444]
深層ネットワークは、(クリーンな自然画像の場合)正確さと(敵対的な摂動画像の場合)頑健さの相違に直面することを最近提案された。
本稿では,入力適応推論に関連するマルチエグジットネットワークについて検討し,モデル精度,ロバスト性,効率の最適化において「スイートポイント」を達成する上での強い期待を示す。
論文 参考訳(メタデータ) (2020-02-24T00:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。