論文の概要: Permute, Quantize, and Fine-tune: Efficient Compression of Neural
Networks
- arxiv url: http://arxiv.org/abs/2010.15703v3
- Date: Sat, 10 Apr 2021 22:27:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 22:10:05.750552
- Title: Permute, Quantize, and Fine-tune: Efficient Compression of Neural
Networks
- Title(参考訳): Permute, Quantize, Fine-Tune: ニューラルネットワークの効率的な圧縮
- Authors: Julieta Martinez, Jashan Shewakramani, Ting Wei Liu, Ioan Andrei
B\^arsan, Wenyuan Zeng, Raquel Urtasun
- Abstract要約: ベクトル量子化の成功の鍵は、どのパラメータ群を一緒に圧縮するかを決定することである。
本稿では,隣り合う2つの層の重みを同じ関数を表現しながら不変にすることができることを観察する。
次に、レート歪み理論への接続を確立し、圧縮し易いネットワークとなる置換を探索する。
- 参考スコア(独自算出の注目度): 70.0243910593064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compressing large neural networks is an important step for their deployment
in resource-constrained computational platforms. In this context, vector
quantization is an appealing framework that expresses multiple parameters using
a single code, and has recently achieved state-of-the-art network compression
on a range of core vision and natural language processing tasks. Key to the
success of vector quantization is deciding which parameter groups should be
compressed together. Previous work has relied on heuristics that group the
spatial dimension of individual convolutional filters, but a general solution
remains unaddressed. This is desirable for pointwise convolutions (which
dominate modern architectures), linear layers (which have no notion of spatial
dimension), and convolutions (when more than one filter is compressed to the
same codeword). In this paper we make the observation that the weights of two
adjacent layers can be permuted while expressing the same function. We then
establish a connection to rate-distortion theory and search for permutations
that result in networks that are easier to compress. Finally, we rely on an
annealed quantization algorithm to better compress the network and achieve
higher final accuracy. We show results on image classification, object
detection, and segmentation, reducing the gap with the uncompressed model by 40
to 70% with respect to the current state of the art.
- Abstract(参考訳): 大きなニューラルネットワークを圧縮することは、リソース制約のある計算プラットフォームに展開するための重要なステップである。
この文脈では、ベクトル量子化は、単一のコードを使って複数のパラメータを表現する魅力的なフレームワークであり、最近、様々なコアビジョンと自然言語処理タスクで最先端のネットワーク圧縮を達成した。
ベクトル量子化の成功の鍵は、どのパラメータ群を一緒に圧縮するかを決定することである。
これまでの研究は、個々の畳み込みフィルタの空間次元をグループ化するヒューリスティックスに依存してきたが、一般的な解は未対応のままである。
これは、(現代のアーキテクチャを支配している)ポイントワイズ畳み込み、(空間次元の概念を持たない)線形層、および(複数のフィルタが同じ符号語に圧縮される場合)畳み込みに対して望ましい。
本稿では,隣接する2層の重みは同じ関数を表現しながら置換可能であることを観察する。
次に、レートゆがみ理論との接続を確立し、圧縮が容易なネットワークへと繋がる置換を探索する。
最後に,ネットワークを圧縮し,最終的な精度を高めるためにアニール量子化アルゴリズムを用いる。
画像分類,オブジェクト検出,セグメンテーションの結果から,未圧縮モデルとのギャップを40~70%削減した。
関連論文リスト
- Approximating Continuous Convolutions for Deep Network Compression [11.566258236184964]
本稿では,畳み込みニューラルネットワークの層を圧縮する新しい手法であるApproxConvを提案する。
提案手法では,既存の深層ネットワークモデルを半分に圧縮できるが,精度は1.86%に留まる。
論文 参考訳(メタデータ) (2022-10-17T11:41:26Z) - A Theoretical Understanding of Neural Network Compression from Sparse
Linear Approximation [37.525277809849776]
モデル圧縮の目標は、同等のパフォーマンスを維持しながら、大きなニューラルネットワークのサイズを減らすことだ。
圧縮性を特徴付けるためにスペーサ感度$ell_q$-normを使用し、ネットワーク内の重みの柔らかいスペーサと圧縮度の関係を提供する。
また,ネットワーク上で各ニューロンを切断する適応アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-11T20:10:35Z) - Fast Conditional Network Compression Using Bayesian HyperNetworks [54.06346724244786]
条件付き圧縮問題を導入し、それに取り組むための高速なフレームワークを提案する。
問題は、トレーニング済みの大規模ニューラルネットワークをターゲットコンテキストに応じて最適な小さなネットワークに素早く圧縮する方法である。
提案手法は, ベースライン方式よりもはるかに小型の圧縮ネットワークを高速に生成できる。
論文 参考訳(メタデータ) (2022-05-13T00:28:35Z) - COIN++: Data Agnostic Neural Compression [55.27113889737545]
COIN++は、幅広いデータモダリティをシームレスに扱うニューラルネットワーク圧縮フレームワークである。
様々なデータモダリティを圧縮することで,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-01-30T20:12:04Z) - Compressing Neural Networks: Towards Determining the Optimal Layer-wise
Decomposition [62.41259783906452]
本稿では,ディープニューラルネットワークのための新しいグローバル圧縮フレームワークを提案する。
各層を自動的に解析し、最適な層間圧縮比を特定する。
我々の結果は、現代のニューラルネットワークのグローバルなパフォーマンス-サイズトレードオフに関する将来の研究のための新たな道を開く。
論文 参考訳(メタデータ) (2021-07-23T20:01:30Z) - DeepReduce: A Sparse-tensor Communication Framework for Distributed Deep
Learning [79.89085533866071]
本稿では,スパーステンソルの圧縮通信のための汎用的フレームワークであるDeepReduceを紹介する。
DeepReduceはテンソルを2つの集合、値とインデックスに分解し、これらの集合の独立圧縮と結合圧縮を可能にする。
大規模実モデルを用いた実験により,DeepReduceはデータ転送を少なくし,既存の手法よりも計算オーバーヘッドを小さくすることを示した。
論文 参考訳(メタデータ) (2021-02-05T11:31:24Z) - Convolutional neural networks compression with low rank and sparse
tensor decompositions [0.0]
畳み込みニューラルネットワークは、様々なコンピュータビジョンタスクにおいて顕著な結果を示す。
現実のアプリケーションでは、エッジシステムやモバイルデバイス上で走るのに十分高速で軽量なモデルを開発することが不可欠である。
本研究では,テンソル分解に基づくニューラルネットワーク圧縮手法を提案する。
論文 参考訳(メタデータ) (2020-06-11T13:53:18Z) - Cross-filter compression for CNN inference acceleration [4.324080238456531]
畳み込み処理において,$sim32times$メモリと$122times$メモリを節約できる新しいクロスフィルタ圧縮法を提案する。
CIFAR-10 と ImageNet のデータセットを用いて,Binary-Weight と XNOR-Net を別々に評価した。
論文 参考訳(メタデータ) (2020-05-18T19:06:14Z) - A "Network Pruning Network" Approach to Deep Model Compression [62.68120664998911]
マルチタスクネットワークを用いた深部モデル圧縮のためのフィルタプルーニング手法を提案する。
我々のアプローチは、プレナーネットワークを学習して、事前訓練されたターゲットネットワークを訓練することに基づいている。
提案手法によって生成された圧縮モデルは汎用的であり,特別なハードウェア/ソフトウェアのサポートは不要である。
論文 参考訳(メタデータ) (2020-01-15T20:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。