論文の概要: Toward Compact Parameter Representations for Architecture-Agnostic
Neural Network Compression
- arxiv url: http://arxiv.org/abs/2111.10320v1
- Date: Fri, 19 Nov 2021 17:03:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-22 16:13:37.065439
- Title: Toward Compact Parameter Representations for Architecture-Agnostic
Neural Network Compression
- Title(参考訳): アーキテクチャ非依存ニューラルネットワーク圧縮のためのコンパクトパラメータ表現に向けて
- Authors: Yuezhou Sun, Wenlong Zhao, Lijun Zhang, Xiao Liu, Hui Guan, Matei
Zaharia
- Abstract要約: 本稿では,訓練されたパラメータをコンパクトに表現・保存する観点から,圧縮について検討する。
我々は、画像記述子のために発明された極端損失圧縮法である加法量子化を利用して、パラメータをコンパクトに表現する。
我々は,MobileNet-v2,VGG-11,ResNet-50,Feature Pyramid Networks,および分類,検出,セグメンテーションタスクを訓練したPruned DNNの実験を行った。
- 参考スコア(独自算出の注目度): 26.501979992447605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates deep neural network (DNN) compression from the
perspective of compactly representing and storing trained parameters. We
explore the previously overlooked opportunity of cross-layer
architecture-agnostic representation sharing for DNN parameters. To do this, we
decouple feedforward parameters from DNN architectures and leverage additive
quantization, an extreme lossy compression method invented for image
descriptors, to compactly represent the parameters. The representations are
then finetuned on task objectives to improve task accuracy. We conduct
extensive experiments on MobileNet-v2, VGG-11, ResNet-50, Feature Pyramid
Networks, and pruned DNNs trained for classification, detection, and
segmentation tasks. The conceptually simple scheme consistently outperforms
iterative unstructured pruning. Applied to ResNet-50 with 76.1% top-1 accuracy
on the ILSVRC12 classification challenge, it achieves a $7.2\times$ compression
ratio with no accuracy loss and a $15.3\times$ compression ratio at 74.79%
accuracy. Further analyses suggest that representation sharing can frequently
happen across network layers and that learning shared representations for an
entire DNN can achieve better accuracy at the same compression ratio than
compressing the model as multiple separate parts. We release PyTorch code to
facilitate DNN deployment on resource-constrained devices and spur future
research on efficient representations and storage of DNN parameters.
- Abstract(参考訳): 本稿では,訓練パラメータをコンパクトに表現し保存するという観点から,ディープニューラルネットワーク(dnn)の圧縮について検討する。
DNNパラメータの層間アーキテクチャに依存しない表現共有の機会について検討する。
これを実現するために、feedforwardパラメータをdnnアーキテクチャから切り離し、画像記述子のために考案された極端に損失のある圧縮法である加法量子化を利用してパラメータをコンパクトに表現する。
それらの表現はタスクの精度を改善するためにタスクの目的に基づいて微調整される。
我々はmobilenet-v2, vgg-11, resnet-50, feature pyramid network, pruned dnnの分類・検出・セグメンテーションタスクに関する広範な実験を行った。
概念的に単純なスキームは、反復的な非構造化プルーニングを一貫して上回っている。
ILSVRC12分類チャレンジで76.1%の精度でResNet-50に適用されると、精度損失のない7.2\times$圧縮比と、74.79%の精度で15.3\times$圧縮比が得られる。
さらに、ネットワーク層間での表現共有が頻繁に起こり、DNN全体の共有表現を学習することで、モデルを複数の別々の部分として圧縮するよりも、同じ圧縮比で精度良く実現できることを示唆している。
我々は、リソース制約のあるデバイス上でDNNの展開を容易にするためにPyTorchコードをリリースし、DNNパラメータの効率的な表現と保存に関する今後の研究を刺激する。
関連論文リスト
- Convolutional Neural Network Compression via Dynamic Parameter Rank
Pruning [4.7027290803102675]
動的パラメータランクプルーニングによるCNN圧縮の効率的なトレーニング手法を提案する。
提案手法は, 分類性能の維持や向上を図りながら, かなりの蓄えを得られることを示す。
論文 参考訳(メタデータ) (2024-01-15T23:52:35Z) - Attention-based Feature Compression for CNN Inference Offloading in Edge
Computing [93.67044879636093]
本稿では,デバイスエッジ共振器におけるCNN推論の計算負荷について検討する。
エンドデバイスにおける効率的な特徴抽出のための新しいオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
実験の結果、AECNNは中間データを約4%の精度で256倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2022-11-24T18:10:01Z) - A Low-Complexity Approach to Rate-Distortion Optimized Variable Bit-Rate
Compression for Split DNN Computing [5.3221129103999125]
分散コンピューティングは、DNNベースのAIワークロードを実装するための最近のパラダイムとして登場した。
本稿では,レート・精度・複雑さのトレードオフを最適化する上での課題に対処するアプローチを提案する。
我々のアプローチは、トレーニングと推論の両方において非常に軽量であり、非常に効果的であり、高い速度歪曲性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T15:02:11Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Model Pruning Based on Quantified Similarity of Feature Maps [5.271060872578571]
3次元テンソルに冗長な情報を見つけるための新しい理論を提案する。
この理論を畳み込みニューラルネットワークを駆使して推論速度を向上させる。
論文 参考訳(メタデータ) (2021-05-13T02:57:30Z) - Tensor Reordering for CNN Compression [7.228285747845778]
畳み込みニューラルネットワーク(CNN)フィルタにおけるパラメータ冗長性は,スペクトル領域におけるプルーニングによって効果的に低減できることを示す。
提案手法は事前学習したCNNに対して適用され,最小限の微調整により元のモデル性能を回復できることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:45:34Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。