論文の概要: End-to-End Neural Network Compression via $\frac{\ell_1}{\ell_2}$
Regularized Latency Surrogates
- arxiv url: http://arxiv.org/abs/2306.05785v1
- Date: Fri, 9 Jun 2023 09:57:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 13:46:53.387957
- Title: End-to-End Neural Network Compression via $\frac{\ell_1}{\ell_2}$
Regularized Latency Surrogates
- Title(参考訳): $\frac{\ell_1}{\ell_2}=正規化レイテンシサロゲートによる終端ニューラルネットワーク圧縮
- Authors: Anshul Nasery, Hardik Shah, Arun Sai Suggala, Prateek Jain
- Abstract要約: 我々のアルゴリズムは多用途であり、プルーニング、低ランク因数分解、量子化など多くの一般的な圧縮手法で利用することができる。
高速で、シングルモデルトレーニングとほぼ同じ時間で実行される。
- 参考スコア(独自算出の注目度): 20.31383698391339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural network (NN) compression via techniques such as pruning, quantization
requires setting compression hyperparameters (e.g., number of channels to be
pruned, bitwidths for quantization) for each layer either manually or via
neural architecture search (NAS) which can be computationally expensive. We
address this problem by providing an end-to-end technique that optimizes for
model's Floating Point Operations (FLOPs) or for on-device latency via a novel
$\frac{\ell_1}{\ell_2}$ latency surrogate. Our algorithm is versatile and can
be used with many popular compression methods including pruning, low-rank
factorization, and quantization. Crucially, it is fast and runs in almost the
same amount of time as single model training; which is a significant training
speed-up over standard NAS methods. For BERT compression on GLUE fine-tuning
tasks, we achieve $50\%$ reduction in FLOPs with only $1\%$ drop in
performance. For compressing MobileNetV3 on ImageNet-1K, we achieve $15\%$
reduction in FLOPs, and $11\%$ reduction in on-device latency without drop in
accuracy, while still requiring $3\times$ less training compute than SOTA
compression techniques. Finally, for transfer learning on smaller datasets, our
technique identifies $1.2\times$-$1.4\times$ cheaper architectures than
standard MobileNetV3, EfficientNet suite of architectures at almost the same
training cost and accuracy.
- Abstract(参考訳): プルーニングや量子化といった手法によるニューラルネットワーク(nn)の圧縮には、各層に対して圧縮ハイパーパラメータ(例えば、プルーニングするチャネルの数、量子化のためのビット幅)を設定する必要がある。
モデルの浮動小数点演算(FLOP)を最適化するエンドツーエンド技術や,新しい$\frac{\ell_1}{\ell_2}$レイテンシサロゲートによってデバイス上でのレイテンシを最適化することで,この問題に対処する。
このアルゴリズムは汎用性があり,pruning,low-rank factorization,quantizationなど,多くの一般的な圧縮手法で使用することができる。
重要なことに、それは高速で、単一のモデルトレーニングとほぼ同じ時間で実行されます。
GLUEの微調整タスクにおけるBERT圧縮では、FLOPをわずか1\%の値下げで50\%の値下げを実現しています。
imagenet-1k 上で mobilenetv3 を圧縮するには,soma 圧縮技術よりも 3 倍のトレーニング計算を必要とせず,フロップ数を 15 % 削減し,デバイス上でのレイテンシを 11 % 削減できる。
最後に、より小さなデータセットでの転送学習では、トレーニングコストと精度がほぼ同じで、標準のMobileNetV3であるEfficientNetスイートよりも1.2\times$-$1.4\times$安いアーキテクチャを識別する。
関連論文リスト
- Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。
局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。
特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - Run, Don't Walk: Chasing Higher FLOPS for Faster Neural Networks [15.519170283930276]
冗長計算とメモリアクセスを同時に削減し,空間的特徴をより効率的に抽出する新しい部分畳み込み(PConv)を提案する。
当社のPConv上に構築された新しいニューラルネットワークファミリーであるFasterNetも提案しています。
当社の大きなFasterNet-Lは、新興のSwin-Bと同等の8,3.5%の精度で、GPU上での推論スループットは36%高い。
論文 参考訳(メタデータ) (2023-03-07T06:05:30Z) - Efficient Latency-Aware CNN Depth Compression via Two-Stage Dynamic
Programming [15.458305667190256]
本稿では,一般的な畳み込み操作を対象とする新しい深度圧縮アルゴリズムを提案する。
ImageNetのMobileNetV2-1.0では、0.11%の精度で1.41タイムのスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-01-28T13:08:54Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - An Information Theory-inspired Strategy for Automatic Network Pruning [88.51235160841377]
深層畳み込みニューラルネットワークは、リソース制約のあるデバイスで圧縮されることがよく知られている。
既存のネットワークプルーニング手法の多くは、人的努力と禁忌な計算資源を必要とする。
本稿では,自動モデル圧縮のための情報理論に基づく戦略を提案する。
論文 参考訳(メタデータ) (2021-08-19T07:03:22Z) - NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural
Architecture Search [100.71365025972258]
BERT圧縮の効率的な手法であるNAS-BERTを提案する。
NAS-BERTは、検索空間上で大きなスーパーネットをトレーニングし、適応的なサイズとレイテンシを持つ複数の圧縮モデルを出力する。
GLUEとSQuADベンチマークデータセットの実験は、NAS-BERTが以前のアプローチよりも高精度で軽量なモデルを見つけることができることを示した。
論文 参考訳(メタデータ) (2021-05-30T07:20:27Z) - Single-path Bit Sharing for Automatic Loss-aware Model Compression [126.98903867768732]
シングルパスビット共有(SBS)は、計算コストを大幅に削減し、有望な性能を達成する。
SBS圧縮MobileNetV2は、Top-1の精度がわずか0.1%低下した22.6倍ビット演算(BOP)を実現する。
論文 参考訳(メタデータ) (2021-01-13T08:28:21Z) - Layer-Wise Data-Free CNN Compression [49.73757297936685]
本稿では,事前学習ネットワークのみを用いてレイヤワイズトレーニングデータを生成する方法を示す。
本稿では,量子化とプルーニングを用いた層間圧縮の結果について述べる。
論文 参考訳(メタデータ) (2020-11-18T03:00:05Z) - Learned Threshold Pruning [15.394473766381518]
本手法は, 入力として設定された従来の手法とは異なり, 勾配降下による層間しきい値の学習を行う。
ImageNet上のResNet50を9.1ドルでチューニングするには30ドルかかる。
また,EfficientNet,MobileNetV2,MixNetなどのモダンなテキストコンポーネントのアーキテクチャを効果的にチューニングできることも示す。
論文 参考訳(メタデータ) (2020-02-28T21:32:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。