論文の概要: HALP: Hardware-Aware Latency Pruning
- arxiv url: http://arxiv.org/abs/2110.10811v1
- Date: Wed, 20 Oct 2021 22:34:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-23 11:21:02.410396
- Title: HALP: Hardware-Aware Latency Pruning
- Title(参考訳): HALP:ハードウェア対応のレイテンシ・プルーニング
- Authors: Maying Shen, Hongxu Yin, Pavlo Molchanov, Lei Mao, Jianna Liu, Jose M.
Alvarez
- Abstract要約: ハードウェア対応構造解析(HALP)
HALPは、グローバルリソース割り当て最適化問題として構造化プルーニングを定式化する。
本稿では,分類タスクと検出タスク,さまざまなネットワーク上でのHALPを,ImageNetおよびVOCデータセット上で検討する。
- 参考スコア(独自算出の注目度): 25.071902504529465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structural pruning can simplify network architecture and improve inference
speed. We propose Hardware-Aware Latency Pruning (HALP) that formulates
structural pruning as a global resource allocation optimization problem, aiming
at maximizing the accuracy while constraining latency under a predefined
budget. For filter importance ranking, HALP leverages latency lookup table to
track latency reduction potential and global saliency score to gauge accuracy
drop. Both metrics can be evaluated very efficiently during pruning, allowing
us to reformulate global structural pruning under a reward maximization problem
given target constraint. This makes the problem solvable via our augmented
knapsack solver, enabling HALP to surpass prior work in pruning efficacy and
accuracy-efficiency trade-off. We examine HALP on both classification and
detection tasks, over varying networks, on ImageNet and VOC datasets. In
particular, for ResNet-50/-101 pruning on ImageNet, HALP improves network
throughput by $1.60\times$/$1.90\times$ with $+0.3\%$/$-0.2\%$ top-1 accuracy
changes, respectively. For SSD pruning on VOC, HALP improves throughput by
$1.94\times$ with only a $0.56$ mAP drop. HALP consistently outperforms prior
art, sometimes by large margins.
- Abstract(参考訳): 構造解析はネットワークアーキテクチャを単純化し、推論速度を改善する。
本稿では,事前定義された予算内でレイテンシを制約しながら精度を最大化することを目的とした,グローバルリソース割り当て最適化問題として構造的プルーニングを定式化するハードウェア・アウェア・レイテンシ・プルーニング(halp)を提案する。
フィルタ重要度ランキングにおいて、HALPはレイテンシー検索テーブルを利用してレイテンシー低減ポテンシャルとグローバルサリエンシスコアを追跡し、精度低下を測定する。
どちらの指標もプルーニング中に非常に効率的に評価でき、ターゲット制約が与えられた報酬最大化問題の下でグローバル構造プルーニングを再構成できる。
これにより、拡張knapsackソルバによる問題解決が可能となり、HALPは、有効性と精度-効率トレードオフの事前の作業を上回ることができる。
本稿では,分類タスクと検出タスク,さまざまなネットワーク上でのHALPを,ImageNetおよびVOCデータセット上で検討する。
特にimagenetのresnet-50/-101プルーニングでは、halpはネットワークスループットを$.60\times$/$1.90\times$で$+0.3\%$/$-0.2\%$ top-1で改善する。
VOC上でのSSDプルーニングでは、HALPは1.94\times$を0.56$ mAPドロップで改善している。
HALPは、しばしば大きなマージンで、常に先行技術より優れている。
関連論文リスト
- Accelerating Deep Neural Networks via Semi-Structured Activation
Sparsity [0.0]
ネットワークの機能マップにスパシティを爆発させることは、推論のレイテンシを低減する方法の1つです。
そこで本研究では,セミ構造化されたアクティベーション空間を小さなランタイム修正によって活用する手法を提案する。
当社のアプローチでは,ImageNetデータセット上のResNet18モデルに対して,最小精度が1.1%の1.25倍の速度向上を実現している。
論文 参考訳(メタデータ) (2023-09-12T22:28:53Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Layer-adaptive Structured Pruning Guided by Latency [7.193554978191659]
構造化プルーニングはネットワークアーキテクチャを単純化し、推論速度を改善する。
本研究では,大域的重要度スコアSP-LAMPを非構造的プルーニングから構造的プルーニングに導出することで,大域的重要度スコアSP-LAMPを提案する。
CIFAR10におけるResNet56の実験結果から,我々のアルゴリズムは代替手法に比べて低レイテンシを実現することが示された。
論文 参考訳(メタデータ) (2023-05-23T11:18:37Z) - DeepReShape: Redesigning Neural Networks for Efficient Private Inference [3.7802450241986945]
近年の研究では、PIのFLOPは無視できず、高いレイテンシのペナルティを負うことが示されている。
我々は、PIの制約下でニューラルネットワークアーキテクチャを最適化するDeepReShapeを開発した。
論文 参考訳(メタデータ) (2023-04-20T18:27:02Z) - Structural Pruning via Latency-Saliency Knapsack [40.562285600570924]
ハードウェア対応構造解析(HALP)
HALPは、グローバルリソース割り当て最適化問題として構造化プルーニングを定式化する。
レイテンシー・ルックアップ・テーブルを使用してレイテンシー・リダクション・ポテンシャルとグローバル・サリエンシ・スコアを追跡し、精度低下を計測する。
論文 参考訳(メタデータ) (2022-10-13T01:41:59Z) - Neural Network Pruning by Cooperative Coevolution [16.0753044050118]
協調的共進化による新しいフィルタプルーニングアルゴリズムCCEPを提案する。
CCEPは分割・対数戦略により刈り取り空間を縮小する。
実験により,CCEPは最先端の刈り取り法と競合する性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-04-12T09:06:38Z) - Selective Network Linearization for Efficient Private Inference [49.937470642033155]
本稿では,予測精度を維持しつつReLUを選択的に線形化する勾配に基づくアルゴリズムを提案する。
その結果、現在の技術よりも4.25%$の精度(so-ReLUは50K)、または2.2times$のレイテンシ(so-accuracyは70%)が低いことがわかった。
論文 参考訳(メタデータ) (2022-02-04T19:00:24Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - EagleEye: Fast Sub-net Evaluation for Efficient Neural Network Pruning [82.54669314604097]
EagleEyeは、適応型バッチ正規化に基づく、シンプルだが効率的な評価コンポーネントである。
異なる破砕された構造と最終的な精度の間に強い相関関係が明らかになる。
このモジュールは、既存のプルーニングアルゴリズムをプラグインし改善するためにも一般的である。
論文 参考訳(メタデータ) (2020-07-06T01:32:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。