論文の概要: Edge AI: Evaluation of Model Compression Techniques for Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2409.02134v1
- Date: Mon, 2 Sep 2024 11:48:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 21:50:21.129272
- Title: Edge AI: Evaluation of Model Compression Techniques for Convolutional Neural Networks
- Title(参考訳): Edge AI:畳み込みニューラルネットワークのためのモデル圧縮手法の評価
- Authors: Samer Francy, Raghubir Singh,
- Abstract要約: 本研究は,CIFAR-10データセットを用いた画像分類タスクにおけるConvNeXtモデルの圧縮手法を評価する。
その結果, モデルサイズが有意に減少し, 構造化プルーニング技術により最大75%の削減が達成された。
動的量子化はパラメータ数の最大95%の削減を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work evaluates the compression techniques on ConvNeXt models in image classification tasks using the CIFAR-10 dataset. Structured pruning, unstructured pruning, and dynamic quantization methods are evaluated to reduce model size and computational complexity while maintaining accuracy. The experiments, conducted on cloud-based platforms and edge device, assess the performance of these techniques. Results show significant reductions in model size, with up to 75% reduction achieved using structured pruning techniques. Additionally, dynamic quantization achieves a reduction of up to 95% in the number of parameters. Fine-tuned models exhibit improved compression performance, indicating the benefits of pre-training in conjunction with compression techniques. Unstructured pruning methods reveal trends in accuracy and compression, with limited reductions in computational complexity. The combination of OTOV3 pruning and dynamic quantization further enhances compression performance, resulting 89.7% reduction in size, 95% reduction with number of parameters and MACs, and 3.8% increase with accuracy. The deployment of the final compressed model on edge device demonstrates high accuracy 92.5% and low inference time 20 ms, validating the effectiveness of compression techniques for real-world edge computing applications.
- Abstract(参考訳): 本研究は,CIFAR-10データセットを用いた画像分類タスクにおけるConvNeXtモデルの圧縮手法を評価する。
構造的プルーニング、非構造的プルーニング、動的量子化法を評価し、精度を維持しながらモデルサイズと計算複雑性を低減する。
クラウドベースのプラットフォームとエッジデバイスで実施された実験は、これらの技術の性能を評価する。
その結果, モデルサイズが著しく減少し, 構造化プルーニング技術により最大75%の削減が達成された。
さらに、動的量子化はパラメータ数の最大95%の減少を達成する。
微調整されたモデルでは圧縮性能が向上し、圧縮技術とともに事前訓練の利点が示された。
非構造化プルーニング法は、計算複雑性が制限された精度と圧縮の傾向を示す。
OTOV3プルーニングと動的量子化の組み合わせにより圧縮性能がさらに向上し、89.7%のサイズが減少し、95%がパラメータ数とMAC数で減少し、3.8%が精度で向上した。
エッジデバイスへの最終的な圧縮モデルの展開により、92.5%の精度と20ミリ秒の低推論が可能となり、実世界のエッジコンピューティングアプリケーションにおける圧縮技術の有効性が検証された。
関連論文リスト
- Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - L-GreCo: Layerwise-Adaptive Gradient Compression for Efficient and
Accurate Deep Learning [24.712888488317816]
トレーニング中にモデルの層をまたいだ圧縮の度合いを動的に適用するためのフレームワークを提供する。
我々のフレームワークはL-GreCoと呼ばれ、モデル層に対する最適圧縮パラメータを自動的に選択する適応アルゴリズムに基づいている。
論文 参考訳(メタデータ) (2022-10-31T14:37:41Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - Deep Compression of Neural Networks for Fault Detection on Tennessee
Eastman Chemical Processes [2.297079626504224]
計算負担を軽減するために3つの深部圧縮技術を適用した。
最も優れた結果として、3つのテクニックを全て適用し、モデルのサイズを91.5%削減し、精度は94%以上である。
論文 参考訳(メタデータ) (2021-01-18T10:53:12Z) - Neural Network Compression Via Sparse Optimization [23.184290795230897]
スパース最適化の最近の進歩に基づくモデル圧縮フレームワークを提案する。
我々は、CIFAR10のVGG16とImageNetのResNet50で、同じレベルの精度で、最大7.2倍と2.9倍のFLOPを削減できる。
論文 参考訳(メタデータ) (2020-11-10T03:03:55Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z) - Structured Sparsification with Joint Optimization of Group Convolution
and Channel Shuffle [117.95823660228537]
本稿では,効率的なネットワーク圧縮のための新しい構造空間分割法を提案する。
提案手法は, 畳み込み重みに対する構造的疎度を自動的に誘導する。
また,学習可能なチャネルシャッフル機構によるグループ間通信の問題にも対処する。
論文 参考訳(メタデータ) (2020-02-19T12:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。