Fugu-MT 論文翻訳(概要): Structural Pruning via Latency-Saliency Knapsack

論文の概要: Structural Pruning via Latency-Saliency Knapsack

arxiv url: http://arxiv.org/abs/2210.06659v1
Date: Thu, 13 Oct 2022 01:41:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-14 16:08:09.922036
Title: Structural Pruning via Latency-Saliency Knapsack
Title（参考訳）: Latency-Saliency Knapsackによる構造解析
Authors: Maying Shen, Hongxu Yin, Pavlo Molchanov, Lei Mao, Jianna Liu, Jose M. Alvarez
Abstract要約: ハードウェア対応構造解析(HALP) HALPは、グローバルリソース割り当て最適化問題として構造化プルーニングを定式化する。レイテンシー・ルックアップ・テーブルを使用してレイテンシー・リダクション・ポテンシャルとグローバル・サリエンシ・スコアを追跡し、精度低下を計測する。
参考スコア（独自算出の注目度）: 40.562285600570924
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Structural pruning can simplify network architecture and improve inference speed. We propose Hardware-Aware Latency Pruning (HALP) that formulates structural pruning as a global resource allocation optimization problem, aiming at maximizing the accuracy while constraining latency under a predefined budget on targeting device. For filter importance ranking, HALP leverages latency lookup table to track latency reduction potential and global saliency score to gauge accuracy drop. Both metrics can be evaluated very efficiently during pruning, allowing us to reformulate global structural pruning under a reward maximization problem given target constraint. This makes the problem solvable via our augmented knapsack solver, enabling HALP to surpass prior work in pruning efficacy and accuracy-efficiency trade-off. We examine HALP on both classification and detection tasks, over varying networks, on ImageNet and VOC datasets, on different platforms. In particular, for ResNet-50/-101 pruning on ImageNet, HALP improves network throughput by $1.60\times$/$1.90\times$ with $+0.3\%$/$-0.2\%$ top-1 accuracy changes, respectively. For SSD pruning on VOC, HALP improves throughput by $1.94\times$ with only a $0.56$ mAP drop. HALP consistently outperforms prior art, sometimes by large margins. Project page at https://halp-neurips.github.io/.
Abstract（参考訳）: 構造解析はネットワークアーキテクチャを単純化し、推論速度を改善する。本稿では,目標装置の予算内で遅延を制約しながら精度を最大化することを目的とした,グローバルリソース割り当て最適化問題として構造的プルーニングを定式化するハードウェア・アウェア・レイテンシ・プルーニング(halp)を提案する。フィルタ重要度ランキングにおいて、HALPはレイテンシー検索テーブルを利用してレイテンシー低減ポテンシャルとグローバルサリエンシスコアを追跡し、精度低下を測定する。どちらの指標もプルーニング中に非常に効率的に評価でき、ターゲット制約が与えられた報酬最大化問題の下でグローバル構造プルーニングを再構成できる。これにより、拡張knapsackソルバによる問題解決が可能となり、HALPは、有効性と精度-効率トレードオフの事前の作業を上回ることができる。我々は,imagenet と voc データセット上で,異なるプラットフォーム上での分類と検出のタスク,さまざまなネットワーク上での halp について検討する。特にimagenetのresnet-50/-101プルーニングでは、halpはネットワークスループットを$.60\times$/$1.90\times$で$+0.3\%$/$-0.2\%$ top-1で改善する。 VOC上でのSSDプルーニングでは、HALPは1.94\times$を0.56$ mAPドロップで改善している。 HALPは、しばしば大きなマージンで、常に先行技術より優れている。プロジェクトページ: https://halp-neurips.github.io/

関連論文リスト

$\ exttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文参考訳（メタデータ） (2025-06-15T05:50:05Z)
Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文参考訳（メタデータ） (2023-09-29T13:09:40Z)
Accelerating Deep Neural Networks via Semi-Structured Activation Sparsity [0.0]
ネットワークの機能マップにスパシティを爆発させることは、推論のレイテンシを低減する方法の1つです。そこで本研究では,セミ構造化されたアクティベーション空間を小さなランタイム修正によって活用する手法を提案する。当社のアプローチでは,ImageNetデータセット上のResNet18モデルに対して,最小精度が1.1%の1.25倍の速度向上を実現している。
論文参考訳（メタデータ） (2023-09-12T22:28:53Z)
Layer-adaptive Structured Pruning Guided by Latency [7.193554978191659]
構造化プルーニングはネットワークアーキテクチャを単純化し、推論速度を改善する。本研究では,大域的重要度スコアSP-LAMPを非構造的プルーニングから構造的プルーニングに導出することで,大域的重要度スコアSP-LAMPを提案する。 CIFAR10におけるResNet56の実験結果から,我々のアルゴリズムは代替手法に比べて低レイテンシを実現することが示された。
論文参考訳（メタデータ） (2023-05-23T11:18:37Z)
DeepReShape: Redesigning Neural Networks for Efficient Private Inference [3.7802450241986945]
近年の研究では、PIのFLOPは無視できず、高いレイテンシのペナルティを負うことが示されている。我々は、PIの制約下でニューラルネットワークアーキテクチャを最適化するDeepReShapeを開発した。
論文参考訳（メタデータ） (2023-04-20T18:27:02Z)
Neural Network Pruning by Cooperative Coevolution [16.0753044050118]
協調的共進化による新しいフィルタプルーニングアルゴリズムCCEPを提案する。 CCEPは分割・対数戦略により刈り取り空間を縮小する。実験により,CCEPは最先端の刈り取り法と競合する性能を発揮することが示された。
論文参考訳（メタデータ） (2022-04-12T09:06:38Z)
Interspace Pruning: Using Adaptive Filter Representations to Improve Training of Sparse CNNs [69.3939291118954]
非構造プルーニングは畳み込みニューラルネットワーク(CNN)のメモリフットプリントを削減するのに適している標準非構造化プルーニング(SP)はフィルタ要素をゼロにすることでCNNのメモリフットプリントを削減する。既存のプルーニング法を改善する汎用ツールであるインタースペースプルーニング(IP)を導入する。
論文参考訳（メタデータ） (2022-03-15T11:50:45Z)
Selective Network Linearization for Efficient Private Inference [49.937470642033155]
本稿では,予測精度を維持しつつReLUを選択的に線形化する勾配に基づくアルゴリズムを提案する。その結果、現在の技術よりも4.25%$の精度(so-ReLUは50K)、または2.2times$のレイテンシ(so-accuracyは70%)が低いことがわかった。
論文参考訳（メタデータ） (2022-02-04T19:00:24Z)
HALP: Hardware-Aware Latency Pruning [25.071902504529465]
ハードウェア対応構造解析(HALP) HALPは、グローバルリソース割り当て最適化問題として構造化プルーニングを定式化する。本稿では,分類タスクと検出タスク,さまざまなネットワーク上でのHALPを,ImageNetおよびVOCデータセット上で検討する。
論文参考訳（メタデータ） (2021-10-20T22:34:51Z)
HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。 HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。 EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文参考訳（メタデータ） (2021-07-12T18:46:34Z)
AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文参考訳（メタデータ） (2020-07-14T09:07:29Z)
EagleEye: Fast Sub-net Evaluation for Efficient Neural Network Pruning [82.54669314604097]
EagleEyeは、適応型バッチ正規化に基づく、シンプルだが効率的な評価コンポーネントである。異なる破砕された構造と最終的な精度の間に強い相関関係が明らかになる。このモジュールは、既存のプルーニングアルゴリズムをプラグインし改善するためにも一般的である。
論文参考訳（メタデータ） (2020-07-06T01:32:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。