論文の概要: Towards Hardware-Specific Automatic Compression of Neural Networks
- arxiv url: http://arxiv.org/abs/2212.07818v1
- Date: Thu, 15 Dec 2022 13:34:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 16:23:35.096577
- Title: Towards Hardware-Specific Automatic Compression of Neural Networks
- Title(参考訳): ニューラルネットワークの自動圧縮のハードウェア化に向けて
- Authors: Torben Krieger, Bernhard Klein, Holger Fr\"oning
- Abstract要約: プルーニングと量子化が ニューラルネットワークを圧縮する主要なアプローチです
効率的な圧縮ポリシーは、特定のハードウェアアーキテクチャが使用する圧縮方法に与える影響を考慮する。
本稿では,プレニングと量子化を利用した強化学習を用いて,Galenと呼ばれるアルゴリズムフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compressing neural network architectures is important to allow the deployment
of models to embedded or mobile devices, and pruning and quantization are the
major approaches to compress neural networks nowadays. Both methods benefit
when compression parameters are selected specifically for each layer. Finding
good combinations of compression parameters, so-called compression policies, is
hard as the problem spans an exponentially large search space. Effective
compression policies consider the influence of the specific hardware
architecture on the used compression methods. We propose an algorithmic
framework called Galen to search such policies using reinforcement learning
utilizing pruning and quantization, thus providing automatic compression for
neural networks. Contrary to other approaches we use inference latency measured
on the target hardware device as an optimization goal. With that, the framework
supports the compression of models specific to a given hardware target. We
validate our approach using three different reinforcement learning agents for
pruning, quantization and joint pruning and quantization. Besides proving the
functionality of our approach we were able to compress a ResNet18 for CIFAR-10,
on an embedded ARM processor, to 20% of the original inference latency without
significant loss of accuracy. Moreover, we can demonstrate that a joint search
and compression using pruning and quantization is superior to an individual
search for policies using a single compression method.
- Abstract(参考訳): ニューラルネットワークアーキテクチャの圧縮は、組み込みやモバイルデバイスへのモデルのデプロイを可能にするために重要であり、近年ではプルーニングと量子化がニューラルネットワークを圧縮するための主要なアプローチとなっている。
どちらのメソッドも、各レイヤごとに圧縮パラメータが特別に選択される場合に有効である。
圧縮パラメータ(いわゆる圧縮ポリシー)のよい組み合わせを見つけることは、指数関数的に大きな探索空間にまたがる問題である。
効率的な圧縮ポリシーは、特定のハードウェアアーキテクチャが使用する圧縮方法に与える影響を考慮する。
そこで本研究では,pruning と quantization を用いた強化学習を用いて,ニューラルネットワークの自動圧縮を行うアルゴリズムフレームワーク galen を提案する。
他のアプローチとは対照的に、ターゲットハードウェアデバイスで測定された推論遅延を最適化の目標としています。
これにより、フレームワークは特定のハードウェアターゲットに特有のモデルの圧縮をサポートする。
提案手法は3種類の強化学習エージェントを用いてpruning, quantization, joint pruning, quantizationを用いて検証した。
このアプローチの機能を証明することに加えて、組み込みARMプロセッサ上で、CIFAR-10用のResNet18を、精度を著しく損なうことなく、元の推論遅延の20%に圧縮することができた。
さらに, プルーニングと量子化を用いた共同探索と圧縮が, 単一圧縮方式によるポリシーの個別探索よりも優れていることを示す。
関連論文リスト
- Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - Towards Optimal Compression: Joint Pruning and Quantization [1.191194620421783]
本稿では,FITCompressについて紹介する。FITCompressは層単位での混合精度の量子化と非構造化プルーニングを組み合わせた新しい手法である。
コンピュータビジョンと自然言語処理ベンチマークの実験により,提案手法が優れた圧縮性能のトレードオフを実現することを示す。
論文 参考訳(メタデータ) (2023-02-15T12:02:30Z) - A Theoretical Understanding of Neural Network Compression from Sparse
Linear Approximation [37.525277809849776]
モデル圧縮の目標は、同等のパフォーマンスを維持しながら、大きなニューラルネットワークのサイズを減らすことだ。
圧縮性を特徴付けるためにスペーサ感度$ell_q$-normを使用し、ネットワーク内の重みの柔らかいスペーサと圧縮度の関係を提供する。
また,ネットワーク上で各ニューロンを切断する適応アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-11T20:10:35Z) - An Information Theory-inspired Strategy for Automatic Network Pruning [88.51235160841377]
深層畳み込みニューラルネットワークは、リソース制約のあるデバイスで圧縮されることがよく知られている。
既存のネットワークプルーニング手法の多くは、人的努力と禁忌な計算資源を必要とする。
本稿では,自動モデル圧縮のための情報理論に基づく戦略を提案する。
論文 参考訳(メタデータ) (2021-08-19T07:03:22Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Neural Network Compression Via Sparse Optimization [23.184290795230897]
スパース最適化の最近の進歩に基づくモデル圧縮フレームワークを提案する。
我々は、CIFAR10のVGG16とImageNetのResNet50で、同じレベルの精度で、最大7.2倍と2.9倍のFLOPを削減できる。
論文 参考訳(メタデータ) (2020-11-10T03:03:55Z) - Permute, Quantize, and Fine-tune: Efficient Compression of Neural
Networks [70.0243910593064]
ベクトル量子化の成功の鍵は、どのパラメータ群を一緒に圧縮するかを決定することである。
本稿では,隣り合う2つの層の重みを同じ関数を表現しながら不変にすることができることを観察する。
次に、レート歪み理論への接続を確立し、圧縮し易いネットワークとなる置換を探索する。
論文 参考訳(メタデータ) (2020-10-29T15:47:26Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z) - End-to-end Learning of Compressible Features [35.40108701875527]
事前訓練された畳み込みニューラルネットワーク(CNN)は、市販の機能ジェネレータである。
CNNは、市販の強力な機能ジェネレータであり、様々なタスクで非常によく機能することが示されている。
残念ながら、生成された機能は高次元であり、保存するのにコストがかかる。
そこで本稿では, 圧縮性とタスク目標を協調的に最適化する学習手法を提案する。
論文 参考訳(メタデータ) (2020-07-23T05:17:33Z) - Structured Sparsification with Joint Optimization of Group Convolution
and Channel Shuffle [117.95823660228537]
本稿では,効率的なネットワーク圧縮のための新しい構造空間分割法を提案する。
提案手法は, 畳み込み重みに対する構造的疎度を自動的に誘導する。
また,学習可能なチャネルシャッフル機構によるグループ間通信の問題にも対処する。
論文 参考訳(メタデータ) (2020-02-19T12:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。