Fugu-MT 論文翻訳(概要): End-to-End Neural Network Compression via $\frac{\ell_1}{\ell

論文の概要: End-to-End Neural Network Compression via $\frac{\ell_1}{\ell_2}$ Regularized Latency Surrogates

arxiv url: http://arxiv.org/abs/2306.05785v1
Date: Fri, 9 Jun 2023 09:57:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-12 13:46:53.387957
Title: End-to-End Neural Network Compression via $\frac{\ell_1}{\ell_2}$ Regularized Latency Surrogates
Title（参考訳）: $\frac{\ell_1}{\ell_2}=正規化レイテンシサロゲートによる終端ニューラルネットワーク圧縮
Authors: Anshul Nasery, Hardik Shah, Arun Sai Suggala, Prateek Jain
Abstract要約: 我々のアルゴリズムは多用途であり、プルーニング、低ランク因数分解、量子化など多くの一般的な圧縮手法で利用することができる。高速で、シングルモデルトレーニングとほぼ同じ時間で実行される。
参考スコア（独自算出の注目度）: 20.31383698391339
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Neural network (NN) compression via techniques such as pruning, quantization requires setting compression hyperparameters (e.g., number of channels to be pruned, bitwidths for quantization) for each layer either manually or via neural architecture search (NAS) which can be computationally expensive. We address this problem by providing an end-to-end technique that optimizes for model's Floating Point Operations (FLOPs) or for on-device latency via a novel $\frac{\ell_1}{\ell_2}$ latency surrogate. Our algorithm is versatile and can be used with many popular compression methods including pruning, low-rank factorization, and quantization. Crucially, it is fast and runs in almost the same amount of time as single model training; which is a significant training speed-up over standard NAS methods. For BERT compression on GLUE fine-tuning tasks, we achieve $50\%$ reduction in FLOPs with only $1\%$ drop in performance. For compressing MobileNetV3 on ImageNet-1K, we achieve $15\%$ reduction in FLOPs, and $11\%$ reduction in on-device latency without drop in accuracy, while still requiring $3\times$ less training compute than SOTA compression techniques. Finally, for transfer learning on smaller datasets, our technique identifies $1.2\times$-$1.4\times$ cheaper architectures than standard MobileNetV3, EfficientNet suite of architectures at almost the same training cost and accuracy.
Abstract（参考訳）: プルーニングや量子化といった手法によるニューラルネットワーク(nn)の圧縮には、各層に対して圧縮ハイパーパラメータ(例えば、プルーニングするチャネルの数、量子化のためのビット幅)を設定する必要がある。モデルの浮動小数点演算(FLOP)を最適化するエンドツーエンド技術や,新しい$\frac{\ell_1}{\ell_2}$レイテンシサロゲートによってデバイス上でのレイテンシを最適化することで,この問題に対処する。このアルゴリズムは汎用性があり,pruning,low-rank factorization,quantizationなど,多くの一般的な圧縮手法で使用することができる。重要なことに、それは高速で、単一のモデルトレーニングとほぼ同じ時間で実行されます。 GLUEの微調整タスクにおけるBERT圧縮では、FLOPをわずか1\%の値下げで50\%の値下げを実現しています。 imagenet-1k 上で mobilenetv3 を圧縮するには,soma 圧縮技術よりも 3 倍のトレーニング計算を必要とせず,フロップ数を 15 % 削減し,デバイス上でのレイテンシを 11 % 削減できる。最後に、より小さなデータセットでの転送学習では、トレーニングコストと精度がほぼ同じで、標準のMobileNetV3であるEfficientNetスイートよりも1.2\times$-$1.4\times$安いアーキテクチャを識別する。

関連論文リスト

Reducing Storage of Pretrained Neural Networks by Rate-Constrained Quantization and Entropy Coding [56.066799081747845]
成長を続けるニューラルネットワークのサイズは、リソースに制約のあるデバイスに深刻な課題をもたらす。本稿では,レートアウェア量子化とエントロピー符号化を組み合わせた学習後圧縮フレームワークを提案する。この方法では非常に高速な復号化が可能であり、任意の量子化グリッドと互換性がある。
論文参考訳（メタデータ） (2025-05-24T15:52:49Z)
Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文参考訳（メタデータ） (2023-09-29T13:09:40Z)
Run, Don't Walk: Chasing Higher FLOPS for Faster Neural Networks [15.519170283930276]
冗長計算とメモリアクセスを同時に削減し,空間的特徴をより効率的に抽出する新しい部分畳み込み(PConv)を提案する。当社のPConv上に構築された新しいニューラルネットワークファミリーであるFasterNetも提案しています。当社の大きなFasterNet-Lは、新興のSwin-Bと同等の8,3.5%の精度で、GPU上での推論スループットは36%高い。
論文参考訳（メタデータ） (2023-03-07T06:05:30Z)
Efficient Latency-Aware CNN Depth Compression via Two-Stage Dynamic Programming [15.458305667190256]
本稿では,一般的な畳み込み操作を対象とする新しい深度圧縮アルゴリズムを提案する。 ImageNetのMobileNetV2-1.0では、0.11%の精度で1.41タイムのスピードアップを実現しています。
論文参考訳（メタデータ） (2023-01-28T13:08:54Z)
Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文参考訳（メタデータ） (2022-10-14T01:42:05Z)
An Information Theory-inspired Strategy for Automatic Network Pruning [88.51235160841377]
深層畳み込みニューラルネットワークは、リソース制約のあるデバイスで圧縮されることがよく知られている。既存のネットワークプルーニング手法の多くは、人的努力と禁忌な計算資源を必要とする。本稿では,自動モデル圧縮のための情報理論に基づく戦略を提案する。
論文参考訳（メタデータ） (2021-08-19T07:03:22Z)
NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural Architecture Search [100.71365025972258]
BERT圧縮の効率的な手法であるNAS-BERTを提案する。 NAS-BERTは、検索空間上で大きなスーパーネットをトレーニングし、適応的なサイズとレイテンシを持つ複数の圧縮モデルを出力する。 GLUEとSQuADベンチマークデータセットの実験は、NAS-BERTが以前のアプローチよりも高精度で軽量なモデルを見つけることができることを示した。
論文参考訳（メタデータ） (2021-05-30T07:20:27Z)
AACP: Model Compression by Accurate and Automatic Channel Pruning [15.808153503786627]
チャネルプルーニングは近年、ニューラルアーキテクチャサーチ(NAS)問題として定式化されている。既存のNASベースの手法は、膨大な計算コストとアプリケーションの柔軟性に悩まされている。本稿では,これらの問題に対処する新しい高精度・自動チャネル・プルーニング法を提案する。
論文参考訳（メタデータ） (2021-01-31T06:19:29Z)
Single-path Bit Sharing for Automatic Loss-aware Model Compression [126.98903867768732]
シングルパスビット共有(SBS)は、計算コストを大幅に削減し、有望な性能を達成する。 SBS圧縮MobileNetV2は、Top-1の精度がわずか0.1%低下した22.6倍ビット演算(BOP)を実現する。
論文参考訳（メタデータ） (2021-01-13T08:28:21Z)
Layer-Wise Data-Free CNN Compression [49.73757297936685]
本稿では,事前学習ネットワークのみを用いてレイヤワイズトレーニングデータを生成する方法を示す。本稿では,量子化とプルーニングを用いた層間圧縮の結果について述べる。
論文参考訳（メタデータ） (2020-11-18T03:00:05Z)
Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文参考訳（メタデータ） (2020-06-21T08:23:03Z)
Learned Threshold Pruning [15.394473766381518]
本手法は, 入力として設定された従来の手法とは異なり, 勾配降下による層間しきい値の学習を行う。 ImageNet上のResNet50を9.1ドルでチューニングするには30ドルかかる。また,EfficientNet,MobileNetV2,MixNetなどのモダンなテキストコンポーネントのアーキテクチャを効果的にチューニングできることも示す。
論文参考訳（メタデータ） (2020-02-28T21:32:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。