論文の概要: Separate, Dynamic and Differentiable (SMART) Pruner for Block/Output Channel Pruning on Computer Vision Tasks
- arxiv url: http://arxiv.org/abs/2403.19969v2
- Date: Thu, 05 Dec 2024 06:29:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:38:04.982632
- Title: Separate, Dynamic and Differentiable (SMART) Pruner for Block/Output Channel Pruning on Computer Vision Tasks
- Title(参考訳): コンピュータビジョンタスクにおけるブロック/出力チャネルプルーニングのための分離・動的・微分可能(SMART)プルーナ
- Authors: Guanhua Ding, Zexi Ye, Zhen Zhong, Gang Li, David Shao,
- Abstract要約: ブロックプルーニング(Block pruning)は、重みの連続ブロックを除去する構造的プルーニング法である。
既存のブロックプルーニングアルゴリズムは、3つの要求を同時に満たさない。
本稿では,このギャップに対処する新しいアルゴリズムSMARTプルーニングを提案する。
- 参考スコア(独自算出の注目度): 6.199556554833467
- License:
- Abstract: Block pruning, which eliminates contiguous blocks of weights, is a structural pruning method that can significantly enhance the performance of neural processing units (NPUs). In industrial applications, an ideal block pruning algorithm should meet three key requirements: (1) maintain high accuracy across diverse models and tasks, as machine learning deployments on edge devices are typically accuracy-critical; (2) offer precise control over resource constraints to facilitate user adoption; and (3) provide convergence guarantees to prevent performance instability. However, to the best of our knowledge, no existing block pruning algorithm satisfies all three requirements simultaneously. In this paper, we introduce SMART (Separate, Dynamic, and Differentiable) pruning, a novel algorithm designed to address this gap. SMART leverages both weight and activation information to enhance accuracy, employs a differentiable top-k operator for precise control of resource constraints, and offers convergence guarantees under mild conditions. Extensive experiments involving seven models, four datasets, three different block types, and three computer vision tasks demonstrate that SMART pruning achieves state-of-the-art performance in block pruning.
- Abstract(参考訳): ブロックプルーニング(Block pruning)は、ニューラルネットワークユニット(NPU)の性能を大幅に向上させる構造的プルーニング手法である。
産業アプリケーションにおいて理想的なブロックプルーニングアルゴリズムは,(1)エッジデバイス上での機械学習の展開が一般的に正確であるように,多様なモデルやタスクにわたって高い精度を維持すること,(2)ユーザの採用を促進するためにリソース制約を正確に制御すること,(3)パフォーマンスの不安定さを防ぐための収束保証を提供すること,の3つの重要な要件を満たすべきである。
しかし、我々の知る限りでは、既存のブロックプルーニングアルゴリズムは3つの要件を同時に満たさない。
本稿では,このギャップに対処する新しいアルゴリズムSMART (Separate, Dynamic, and Differentiable) プルーニングを提案する。
SMARTは、重み情報とアクティベーション情報の両方を利用して精度を高め、リソース制約の正確な制御に微分可能なトップk演算子を使用し、穏やかな条件下で収束保証を提供する。
7つのモデル、4つのデータセット、3つの異なるブロックタイプ、3つのコンピュータビジョンタスクを含む大規模な実験は、SMARTプルーニングがブロックプルーニングにおける最先端のパフォーマンスを達成することを示す。
関連論文リスト
- Differentiable Weightless Neural Networks [1.453874055504475]
本稿では,相互接続型ルックアップテーブルに基づくモデルであるDWNを提案する。
本稿では,これらのモデルの精度と効率をさらに向上させるために,学習可能なマッピング,学習可能なリダクション,スペクトル正規化を提案する。
論文 参考訳(メタデータ) (2024-10-14T21:43:48Z) - Stochastic Configuration Machines: FPGA Implementation [4.57421617811378]
コンフィグレーションネットワーク(SCN)は、データモデリングのメリットと実現可能性から、産業アプリケーションにおいて主要な選択肢である。
本稿では、フィールドプログラマブルゲートアレイ(FPGA)にSCMモデルを実装し、学習性能を向上させるためにバイナリコード入力を導入することを目的とする。
論文 参考訳(メタデータ) (2023-10-30T02:04:20Z) - Efficient Controllable Multi-Task Architectures [85.76598445904374]
本稿では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。
我々のキーとなる考え方は、タスク固有のデコーダの容量を変化させ、計算コストの総和を制御し、タスクの重要度を制御することである。
これにより、与えられた予算に対してより強力なエンコーダを許可し、計算コストの制御を高め、高品質のスリム化サブアーキテクチャを提供することにより、全体的な精度を向上させる。
論文 参考訳(メタデータ) (2023-08-22T19:09:56Z) - KECOR: Kernel Coding Rate Maximization for Active 3D Object Detection [48.66703222700795]
我々は、ラベルの取得に最も有用なポイントクラウドを特定するために、新しいカーネル戦略を利用する。
1段目(SECOND)と2段目(SECOND)の両方に対応するため、アノテーションに選択した境界ボックスの総数と検出性能のトレードオフをよく組み込んだ分類エントロピー接点を組み込んだ。
その結果,ボックスレベルのアノテーションのコストは約44%,計算時間は26%削減された。
論文 参考訳(メタデータ) (2023-07-16T04:27:03Z) - Algorithm to Compilation Co-design: An Integrated View of Neural Network
Sparsity [0.8566457170664925]
BERT言語モデルの変圧器ブロックの重み付けに構造化および非構造化プルーニングを適用した。
本研究では,モデル決定と空間的拡張実行に対する直接的影響の関係について検討する。
論文 参考訳(メタデータ) (2021-06-16T15:13:26Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z) - A Privacy-Preserving-Oriented DNN Pruning and Mobile Acceleration
Framework [56.57225686288006]
モバイルエッジデバイスの限られたストレージとコンピューティング能力を満たすために、ディープニューラルネットワーク(DNN)の軽量プルーニングが提案されている。
従来のプルーニング手法は主に、ユーザデータのプライバシを考慮せずに、モデルのサイズを減らしたり、パフォーマンスを向上させることに重点を置いていた。
プライベートトレーニングデータセットを必要としないプライバシ保護指向のプルーニングおよびモバイルアクセラレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T23:52:03Z) - Triple Wins: Boosting Accuracy, Robustness and Efficiency Together by
Enabling Input-Adaptive Inference [119.19779637025444]
深層ネットワークは、(クリーンな自然画像の場合)正確さと(敵対的な摂動画像の場合)頑健さの相違に直面することを最近提案された。
本稿では,入力適応推論に関連するマルチエグジットネットワークについて検討し,モデル精度,ロバスト性,効率の最適化において「スイートポイント」を達成する上での強い期待を示す。
論文 参考訳(メタデータ) (2020-02-24T00:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。