Fugu-MT 論文翻訳(概要): Compressing Deep Neural Networks via Layer Fusion

論文の概要: Compressing Deep Neural Networks via Layer Fusion

arxiv url: http://arxiv.org/abs/2007.14917v1
Date: Wed, 29 Jul 2020 15:43:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-05 19:42:40.366434
Title: Compressing Deep Neural Networks via Layer Fusion
Title（参考訳）: 層融合によるディープニューラルネットワークの圧縮
Authors: James O' Neill, Greg Ver Steeg and Aram Galstyan
Abstract要約: textitlayer fusionはモデル圧縮技術で、どの重みを結合して、同じ完全に接続された、畳み込み、注意層で重みを融合させるかを検出する。レイヤ融合は、競争性能を維持しながら、オーバーヘッドの少ない元のネットワークのレイヤ数を著しく削減することができる。
参考スコア（独自算出の注目度）: 32.80630183210368
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper proposes \textit{layer fusion} - a model compression technique that discovers which weights to combine and then fuses weights of similar fully-connected, convolutional and attention layers. Layer fusion can significantly reduce the number of layers of the original network with little additional computation overhead, while maintaining competitive performance. From experiments on CIFAR-10, we find that various deep convolution neural networks can remain within 2\% accuracy points of the original networks up to a compression ratio of 3.33 when iteratively retrained with layer fusion. For experiments on the WikiText-2 language modelling dataset where pretrained transformer models are used, we achieve compression that leads to a network that is 20\% of its original size while being within 5 perplexity points of the original network. We also find that other well-established compression techniques can achieve competitive performance when compared to their original networks given a sufficient number of retraining steps. Generally, we observe a clear inflection point in performance as the amount of compression increases, suggesting a bound on the amount of compression that can be achieved before an exponential degradation in performance.
Abstract（参考訳）: 本稿では,モデル圧縮手法である \textit{layer fusion} を提案する。レイヤフュージョンは、競合性能を維持しながら、計算オーバーヘッドの少ない元のネットワークのレイヤ数を著しく削減することができる。 CIFAR-10の実験から、様々なディープ畳み込みニューラルネットワークは、層融合によって反復的に再訓練された場合、元のネットワークの2倍の精度で3.33の圧縮比まで保持できることがわかった。事前学習されたトランスフォーマーモデルが使用されるwikitext-2言語モデリングデータセットでの実験では、元のネットワークの5つのパープレキシティポイント内に留まらず、元のサイズの20\%のネットワークに繋がる圧縮を実現する。また,十分に多くの再トレーニングステップを踏むことで,既存のネットワークと比較して,他の確立された圧縮技術が競合性能を達成できることがわかった。一般に, 圧縮量が増加するにつれて, 性能の明らかな変曲点が観察され, 指数関数的に低下する前に達成できる圧縮量の限界が示唆される。

関連論文リスト

Reducing Storage of Pretrained Neural Networks by Rate-Constrained Quantization and Entropy Coding [56.066799081747845]
成長を続けるニューラルネットワークのサイズは、リソースに制約のあるデバイスに深刻な課題をもたらす。本稿では,レートアウェア量子化とエントロピー符号化を組み合わせた学習後圧縮フレームワークを提案する。この方法では非常に高速な復号化が可能であり、任意の量子化グリッドと互換性がある。
論文参考訳（メタデータ） (2025-05-24T15:52:49Z)
Low-rank Tensor Decomposition for Compression of Convolutional Neural Networks Using Funnel Regularization [1.8579693774597708]
低ランクテンソル分解を用いた事前学習ネットワークを圧縮するモデル削減手法を提案する。圧縮中の重要でない要因を抑えるために, ファンネル関数と呼ばれる新しい正規化法を提案する。 ImageNet2012のResNet18では、GMACの精度は0.7%に過ぎず、Top-1の精度はわずかに低下する。
論文参考訳（メタデータ） (2021-12-07T13:41:51Z)
Low-Rank+Sparse Tensor Compression for Neural Networks [11.632913694957868]
本稿では,低ランクテンソル分解とスパースプルーニングを組み合わせることで,圧縮の粗さと微細構造を両立させることを提案する。我々はSOTAアーキテクチャ(MobileNetv3、EfficientNet、Vision Transformer)の重みを圧縮し、この手法をスパースプルーニングとテンソル分解だけで比較する。
論文参考訳（メタデータ） (2021-11-02T15:55:07Z)
Compact representations of convolutional neural networks via weight pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文参考訳（メタデータ） (2021-08-28T20:39:54Z)
Compressing Neural Networks: Towards Determining the Optimal Layer-wise Decomposition [62.41259783906452]
本稿では,ディープニューラルネットワークのための新しいグローバル圧縮フレームワークを提案する。各層を自動的に解析し、最適な層間圧縮比を特定する。我々の結果は、現代のニューラルネットワークのグローバルなパフォーマンス-サイズトレードオフに関する将来の研究のための新たな道を開く。
論文参考訳（メタデータ） (2021-07-23T20:01:30Z)
Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。 52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文参考訳（メタデータ） (2021-05-24T12:07:38Z)
An Efficient Statistical-based Gradient Compression Technique for Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。 SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文参考訳（メタデータ） (2021-01-26T13:06:00Z)
Layer-Wise Data-Free CNN Compression [49.73757297936685]
本稿では,事前学習ネットワークのみを用いてレイヤワイズトレーニングデータを生成する方法を示す。本稿では,量子化とプルーニングを用いた層間圧縮の結果について述べる。
論文参考訳（メタデータ） (2020-11-18T03:00:05Z)
Permute, Quantize, and Fine-tune: Efficient Compression of Neural Networks [70.0243910593064]
ベクトル量子化の成功の鍵は、どのパラメータ群を一緒に圧縮するかを決定することである。本稿では,隣り合う2つの層の重みを同じ関数を表現しながら不変にすることができることを観察する。次に、レート歪み理論への接続を確立し、圧縮し易いネットワークとなる置換を探索する。
論文参考訳（メタデータ） (2020-10-29T15:47:26Z)
Tensor Reordering for CNN Compression [7.228285747845778]
畳み込みニューラルネットワーク(CNN)フィルタにおけるパラメータ冗長性は,スペクトル領域におけるプルーニングによって効果的に低減できることを示す。提案手法は事前学習したCNNに対して適用され,最小限の微調整により元のモデル性能を回復できることを示す。
論文参考訳（メタデータ） (2020-10-22T23:45:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。