論文の概要: HALOC: Hardware-Aware Automatic Low-Rank Compression for Compact Neural
Networks
- arxiv url: http://arxiv.org/abs/2301.09422v1
- Date: Fri, 20 Jan 2023 01:57:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 13:34:31.786912
- Title: HALOC: Hardware-Aware Automatic Low-Rank Compression for Compact Neural
Networks
- Title(参考訳): HALOC:小型ニューラルネットワークのためのハードウェア対応低ランク自動圧縮
- Authors: Jinqi Xiao, Chengming Zhang, Yu Gong, Miao Yin, Yang Sui, Lizhi Xiang,
Dingwen Tao, Bo Yuan
- Abstract要約: ハードウェア対応の低ランク自動圧縮フレームワークであるHALOCを提案する。
アーキテクチャ検索の観点からの自動ランク選択を解釈することにより、エンドツーエンドのソリューションを開発する。
異なるデータセットとハードウェアプラットフォームに対する実験結果から,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 17.769734781490143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-rank compression is an important model compression strategy for obtaining
compact neural network models. In general, because the rank values directly
determine the model complexity and model accuracy, proper selection of
layer-wise rank is very critical and desired. To date, though many low-rank
compression approaches, either selecting the ranks in a manual or automatic
way, have been proposed, they suffer from costly manual trials or unsatisfied
compression performance. In addition, all of the existing works are not
designed in a hardware-aware way, limiting the practical performance of the
compressed models on real-world hardware platforms.
To address these challenges, in this paper we propose HALOC, a hardware-aware
automatic low-rank compression framework. By interpreting automatic rank
selection from an architecture search perspective, we develop an end-to-end
solution to determine the suitable layer-wise ranks in a differentiable and
hardware-aware way. We further propose design principles and mitigation
strategy to efficiently explore the rank space and reduce the potential
interference problem.
Experimental results on different datasets and hardware platforms demonstrate
the effectiveness of our proposed approach. On CIFAR-10 dataset, HALOC enables
0.07% and 0.38% accuracy increase over the uncompressed ResNet-20 and VGG-16
models with 72.20% and 86.44% fewer FLOPs, respectively. On ImageNet dataset,
HALOC achieves 0.9% higher top-1 accuracy than the original ResNet-18 model
with 66.16% fewer FLOPs. HALOC also shows 0.66% higher top-1 accuracy increase
than the state-of-the-art automatic low-rank compression solution with fewer
computational and memory costs. In addition, HALOC demonstrates the practical
speedups on different hardware platforms, verified by the measurement results
on desktop GPU, embedded GPU and ASIC accelerator.
- Abstract(参考訳): 低ランク圧縮は、コンパクトニューラルネットワークモデルを得るための重要なモデル圧縮戦略である。
一般に、ランクの値はモデルの複雑さとモデルの精度を直接決定するので、階層的なランクの適切な選択は非常に重要で望ましい。
これまでは、手動または自動でランクを選択するような低ランク圧縮手法が提案されてきたが、コストのかかる手動試験や不満足な圧縮性能に悩まされている。
加えて、既存の作品はすべてハードウェアを意識した設計ではなく、実世界のハードウェアプラットフォームにおける圧縮モデルの実用性能を制限している。
これらの課題に対処するため,ハードウェア対応の低ランク自動圧縮フレームワークであるHALOCを提案する。
アーキテクチャ検索の観点から、自動階位選択を解釈することにより、適切な階位を微分可能かつハードウェア的に決定するエンド・ツー・エンドのソリューションを開発する。
さらに, ランク空間を効率的に探索し, 潜在的な干渉問題を低減するための設計原理と緩和戦略を提案する。
異なるデータセットとハードウェアプラットフォームにおける実験結果は,提案手法の有効性を示している。
CIFAR-10データセットでは、HALOCは圧縮されていない ResNet-20 と VGG-16 モデルに対して 0.07% と 0.38% の精度向上を可能にし、それぞれ 72.20% と 86.44% の FLOP を削減した。
ImageNetデータセットでは、HALOCはオリジナルのResNet-18モデルよりも0.9%高いトップ1精度を実現し、FLOPは66.16%減少した。
HALOCはまた、計算コストとメモリコストの少ない最先端の自動低ランク圧縮ソリューションよりも0.66%高いトップ1精度の向上を示している。
さらにHALOCは、デスクトップGPU、組み込みGPU、ASICアクセラレータの測定結果によって検証された、さまざまなハードウェアプラットフォーム上での実践的なスピードアップを実証している。
関連論文リスト
- Convolutional Neural Network Compression via Dynamic Parameter Rank
Pruning [4.7027290803102675]
動的パラメータランクプルーニングによるCNN圧縮の効率的なトレーニング手法を提案する。
提案手法は, 分類性能の維持や向上を図りながら, かなりの蓄えを得られることを示す。
論文 参考訳(メタデータ) (2024-01-15T23:52:35Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - Towards Hardware-Specific Automatic Compression of Neural Networks [0.0]
プルーニングと量子化が ニューラルネットワークを圧縮する主要なアプローチです
効率的な圧縮ポリシーは、特定のハードウェアアーキテクチャが使用する圧縮方法に与える影響を考慮する。
本稿では,プレニングと量子化を利用した強化学習を用いて,Galenと呼ばれるアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-15T13:34:02Z) - Optimal Rate Adaption in Federated Learning with Compressed
Communications [28.16239232265479]
フェデレートラーニングは高い通信オーバーヘッドを引き起こし、モデル更新の圧縮によって大幅に軽減される。
ネットワーク環境における 圧縮とモデルの精度のトレードオフは 未だ不明です
各繰り返しの圧縮を戦略的に調整することで最終モデルの精度を最大化する枠組みを提案する。
論文 参考訳(メタデータ) (2021-12-13T14:26:15Z) - ZARTS: On Zero-order Optimization for Neural Architecture Search [94.41017048659664]
微分可能なアーキテクチャサーチ (DARTS) は、NASの高効率性のため、一般的なワンショットパラダイムである。
この作業はゼロオーダーの最適化に変わり、上記の近似を強制せずに探索するための新しいNASスキームであるZARTSを提案する。
特に、12ベンチマークの結果は、DARTSの性能が低下するZARTSの顕著な堅牢性を検証する。
論文 参考訳(メタデータ) (2021-10-10T09:35:15Z) - An Information Theory-inspired Strategy for Automatic Network Pruning [88.51235160841377]
深層畳み込みニューラルネットワークは、リソース制約のあるデバイスで圧縮されることがよく知られている。
既存のネットワークプルーニング手法の多くは、人的努力と禁忌な計算資源を必要とする。
本稿では,自動モデル圧縮のための情報理論に基づく戦略を提案する。
論文 参考訳(メタデータ) (2021-08-19T07:03:22Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Neural Network Compression Via Sparse Optimization [23.184290795230897]
スパース最適化の最近の進歩に基づくモデル圧縮フレームワークを提案する。
我々は、CIFAR10のVGG16とImageNetのResNet50で、同じレベルの精度で、最大7.2倍と2.9倍のFLOPを削減できる。
論文 参考訳(メタデータ) (2020-11-10T03:03:55Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。