Fugu-MT 論文翻訳(概要): Layer-adaptive Structured Pruning Guided by Latency

論文の概要: Layer-adaptive Structured Pruning Guided by Latency

arxiv url: http://arxiv.org/abs/2305.14403v1
Date: Tue, 23 May 2023 11:18:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 00:27:01.176781
Title: Layer-adaptive Structured Pruning Guided by Latency
Title（参考訳）: 遅延を考慮した層適応構造プルーニング
Authors: Siyuan Pan, Linna Zhang, Jie Zhang, Xiaoshuang Li, Liang Hou, Xiaobing Tu
Abstract要約: 構造化プルーニングはネットワークアーキテクチャを単純化し、推論速度を改善する。本研究では,大域的重要度スコアSP-LAMPを非構造的プルーニングから構造的プルーニングに導出することで,大域的重要度スコアSP-LAMPを提案する。 CIFAR10におけるResNet56の実験結果から,我々のアルゴリズムは代替手法に比べて低レイテンシを実現することが示された。
参考スコア（独自算出の注目度）: 7.193554978191659
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Structured pruning can simplify network architecture and improve inference speed. Combined with the underlying hardware and inference engine in which the final model is deployed, better results can be obtained by using latency collaborative loss function to guide network pruning together. Existing pruning methods that optimize latency have demonstrated leading performance, however, they often overlook the hardware features and connection in the network. To address this problem, we propose a global importance score SP-LAMP(Structured Pruning Layer-Adaptive Magnitude-based Pruning) by deriving a global importance score LAMP from unstructured pruning to structured pruning. In SP-LAMP, each layer includes a filter with an SP-LAMP score of 1, and the remaining filters are grouped. We utilize a group knapsack solver to maximize the SP-LAMP score under latency constraints. In addition, we improve the strategy of collect the latency to make it more accurate. In particular, for ResNet50/ResNet18 on ImageNet and CIFAR10, SP-LAMP is 1.28x/8.45x faster with +1.7%/-1.57% top-1 accuracy changed, respectively. Experimental results in ResNet56 on CIFAR10 demonstrate that our algorithm achieves lower latency compared to alternative approaches while ensuring accuracy and FLOPs.
Abstract（参考訳）: 構造化プルーニングはネットワークアーキテクチャを単純化し、推論速度を改善する。最終モデルがデプロイされる基盤となるハードウェアと推論エンジンを組み合わせることで、ネットワークのプルーニングを導くためにレイテンシコラボレーティブ損失関数を使用することで、よりよい結果を得ることができる。遅延を最適化する既存のプルーニング手法は、主要な性能を示しているが、ネットワーク内のハードウェア機能や接続を見落としていることが多い。この問題に対処するために,大域的重要度スコアSP-LAMP(Structured Pruning Layer-Adaptive Magnitude-based Pruning)を提案する。 spランプでは、各層がspランプスコア1のフィルタを含み、残りのフィルタがグループ化される。グループknapsackソルバを用いてSP-LAMPスコアをレイテンシ制約下で最大化する。さらに、レイテンシ収集の戦略を改善して、より正確なものにします。特に ImageNet と CIFAR10 の ResNet50/ResNet18 では、SP-LAMP は 1.28x/8.45x で、+1.7%/-1.57% のトップ-1 の精度が変更されている。 CIFAR10におけるResNet56の実験結果から,提案アルゴリズムは精度とFLOPを保証しながら,代替手法に比べて低レイテンシを実現することが示された。

関連論文リスト

MDP: Multidimensional Vision Model Pruning with Latency Constraint [17.256693658926405]
多次元プルーニング(MDP)は,様々なプルーニング粒度を協調的に最適化する新しいパラダイムである。大規模な実験により、MDPは特に高い刈り取り率で従来の方法よりも大幅に優れていたことが示されている。
論文参考訳（メタデータ） (2025-04-02T23:00:10Z)
Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。 3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文参考訳（メタデータ） (2023-08-30T10:57:41Z)
DeepReShape: Redesigning Neural Networks for Efficient Private Inference [3.7802450241986945]
近年の研究では、PIのFLOPは無視できず、高いレイテンシのペナルティを負うことが示されている。我々は、PIの制約下でニューラルネットワークアーキテクチャを最適化するDeepReShapeを開発した。
論文参考訳（メタデータ） (2023-04-20T18:27:02Z)
Structural Pruning via Latency-Saliency Knapsack [40.562285600570924]
ハードウェア対応構造解析(HALP) HALPは、グローバルリソース割り当て最適化問題として構造化プルーニングを定式化する。レイテンシー・ルックアップ・テーブルを使用してレイテンシー・リダクション・ポテンシャルとグローバル・サリエンシ・スコアを追跡し、精度低下を計測する。
論文参考訳（メタデータ） (2022-10-13T01:41:59Z)
End-to-End Sensitivity-Based Filter Pruning [49.61707925611295]
本稿では,各層間のフィルタの重要度を学習するための感度に基づくフィルタプルーニングアルゴリズム(SbF-Pruner)を提案する。提案手法はフィルタ重みからスコアを学習し,各層のフィルタ間の相関を考慮できる。
論文参考訳（メタデータ） (2022-04-15T10:21:05Z)
Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文参考訳（メタデータ） (2021-11-22T23:53:14Z)
HALP: Hardware-Aware Latency Pruning [25.071902504529465]
ハードウェア対応構造解析(HALP) HALPは、グローバルリソース割り当て最適化問題として構造化プルーニングを定式化する。本稿では,分類タスクと検出タスク,さまざまなネットワーク上でのHALPを,ImageNetおよびVOCデータセット上で検討する。
論文参考訳（メタデータ） (2021-10-20T22:34:51Z)
HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。 HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。 EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文参考訳（メタデータ） (2021-07-12T18:46:34Z)
Efficient Incorporation of Multiple Latency Targets in the Once-For-All Network [0.0]
ofaネットワークにおける複数のレイテンシターゲットを効率的に組み込むために,ウォームスタートとランダムネットワークプルーニングを用いた2つの戦略を導入する。これらの戦略を現在の OFA 実装に対して評価し、当社の戦略が実行時間の大幅な向上をもたらすことを実証します。
論文参考訳（メタデータ） (2020-12-12T07:34:09Z)
Weight-dependent Gates for Network Pruning [24.795174721078528]
本論では, 刈り取り決定は畳み込み重みに依存するべきであり, フィルタ重みから情報を学習し, フィルタのプーンや保持を自動的に行うための二分ゲートを得るための新しい重み依存ゲート (W-Gates) を提案する。我々は,提案手法の有効性をResNet34,ResNet50,MobileNet V2で実証した。
論文参考訳（メタデータ） (2020-07-04T10:29:07Z)
Toward fast and accurate human pose estimation via soft-gated skip connections [97.06882200076096]
本稿では,高精度かつ高効率な人間のポーズ推定について述べる。我々は、最先端技術よりも精度と効率を両立させる文脈において、この設計選択を再分析する。本モデルでは,MPII と LSP のデータセットから最先端の結果が得られる。
論文参考訳（メタデータ） (2020-02-25T18:51:51Z)
Convolutional Networks with Dense Connectivity [59.30634544498946]
Dense Convolutional Network (DenseNet)を導入し、フィードフォワード方式で各レイヤを他のすべてのレイヤに接続する。各レイヤについて、先行するすべてのレイヤのフィーチャーマップをインプットとして使用し、それ自身のフィーチャーマップをその後のすべてのレイヤへのインプットとして使用します。提案したアーキテクチャを、4つの高度に競争力のあるオブジェクト認識ベンチマークタスクで評価する。
論文参考訳（メタデータ） (2020-01-08T06:54:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。