論文の概要: A High-Performance Adaptive Quantization Approach for Edge CNN
Applications
- arxiv url: http://arxiv.org/abs/2107.08382v1
- Date: Sun, 18 Jul 2021 07:49:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 15:12:50.004839
- Title: A High-Performance Adaptive Quantization Approach for Edge CNN
Applications
- Title(参考訳): エッジCNNアプリケーションのための高性能適応量子化手法
- Authors: Hsu-Hsun Chin, Ren-Song Tsay, Hsin-I Wu
- Abstract要約: 最近の畳み込みニューラルネットワーク(CNN)開発は、様々なアプリケーションに対する最先端のモデル精度を推し進めている。
精度の向上は、かなりのメモリ帯域幅とストレージ要求のコストが伴う。
本稿では,偏りのあるアクティベーションの問題を解決するための適応型高性能量子化法を提案する。
- 参考スコア(独自算出の注目度): 0.225596179391365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent convolutional neural network (CNN) development continues to advance
the state-of-the-art model accuracy for various applications. However, the
enhanced accuracy comes at the cost of substantial memory bandwidth and storage
requirements and demanding computational resources. Although in the past the
quantization methods have effectively reduced the deployment cost for edge
devices, it suffers from significant information loss when processing the
biased activations of contemporary CNNs. In this paper, we hence introduce an
adaptive high-performance quantization method to resolve the issue of biased
activation by dynamically adjusting the scaling and shifting factors based on
the task loss. Our proposed method has been extensively evaluated on image
classification models (ResNet-18/34/50, MobileNet-V2, EfficientNet-B0) with
ImageNet dataset, object detection model (YOLO-V4) with COCO dataset, and
language models with PTB dataset. The results show that our 4-bit integer
(INT4) quantization models achieve better accuracy than the state-of-the-art
4-bit models, and in some cases, even surpass the golden full-precision models.
The final designs have been successfully deployed onto extremely
resource-constrained edge devices for many practical applications.
- Abstract(参考訳): 最近の畳み込みニューラルネットワーク(CNN)開発は、様々なアプリケーションに対する最先端モデル精度を推し進めている。
しかしながら、精度の強化は、メモリ帯域幅とストレージ要件のかなりのコストと計算リソースの要求によって実現される。
これまで、量子化手法はエッジデバイスの展開コストを効果的に削減してきたが、現代のcnnの偏りのあるアクティベーションを処理する場合、かなりの情報損失を被っている。
そこで本稿では,タスク損失に基づくスケーリングとシフト係数を動的に調整することにより,バイアス付アクティベーションの問題を解決するための適応型高性能量子化手法を提案する。
提案手法は,イメージネットデータセットを用いた画像分類モデル(ResNet-18/34/50,MobileNet-V2,EfficientNet-B0),COCOデータセットを用いたオブジェクト検出モデル(YOLO-V4),TBデータセットを用いた言語モデルで広く評価されている。
その結果、我々の4ビット整数量子化モデル(INT4)は最先端の4ビットモデルよりも精度が良く、場合によっては黄金の完全精度モデルを超えていることがわかった。
最終的な設計は、多くの実用用途のために非常にリソースに制約されたエッジデバイスにうまく展開されている。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - AdaQAT: Adaptive Bit-Width Quantization-Aware Training [0.873811641236639]
大規模ディープニューラルネットワーク(DNN)は多くのアプリケーションシナリオで大きな成功を収めています。
モデル量子化は、デプロイメントの制約に対処する一般的なアプローチであるが、最適化されたビット幅の探索は困難である。
AdaQAT(Adaptive Bit-Width Quantization Aware Training)は,学習中のビット幅を自動的に最適化し,より効率的な推論を行う学習手法である。
論文 参考訳(メタデータ) (2024-04-22T09:23:56Z) - Post-training Model Quantization Using GANs for Synthetic Data
Generation [57.40733249681334]
量子化法における実データを用いたキャリブレーションの代用として合成データを用いた場合について検討する。
本稿では,StyleGAN2-ADAが生成したデータと事前学習したDiStyleGANを用いて定量化したモデルの性能と,実データを用いた量子化とフラクタル画像に基づく代替データ生成手法との比較を行った。
論文 参考訳(メタデータ) (2023-05-10T11:10:09Z) - Edge Inference with Fully Differentiable Quantized Mixed Precision
Neural Networks [1.131071436917293]
パラメータと演算をビット精度の低いものに量子化することで、ニューラルネットワークの推論にかなりのメモリとエネルギーを節約できる。
本稿では,エッジ計算を対象とする混合精度畳み込みニューラルネットワーク(CNN)の量子化手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T18:11:37Z) - Adaptive Anomaly Detection for Internet of Things in Hierarchical Edge
Computing: A Contextual-Bandit Approach [81.5261621619557]
階層エッジコンピューティング(HEC)を用いた適応型異常検出手法を提案する。
まず,複雑性を増した複数のDNNモデルを構築し,それぞれを対応するHEC層に関連付ける。
そこで我々は、文脈帯域問題として定式化され、強化学習ポリシーネットワークを用いて解決される適応モデル選択スキームを設計する。
論文 参考訳(メタデータ) (2021-08-09T08:45:47Z) - Mitigating severe over-parameterization in deep convolutional neural
networks through forced feature abstraction and compression with an
entropy-based heuristic [7.503338065129185]
本稿では,エントロピーに基づく畳み込み層推定(EBCLE)を提案する。
EBCLEを用いて訓練したより広いが浅いモデルの相対的有効性を強調する実証的証拠を提示する。
論文 参考訳(メタデータ) (2021-06-27T10:34:39Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - Activation Density based Mixed-Precision Quantization for Energy
Efficient Neural Networks [2.666640112616559]
ニューラルネットワークモデルのイントレーニング量子化手法を提案する。
本手法は,混合精度モデルの学習中に各層に対するビット幅を計算する。
VGG19/ResNet18アーキテクチャ上で、CIFAR-10、CIFAR-100、TinyImagenetなどのベンチマークデータセットの実験を行います。
論文 参考訳(メタデータ) (2021-01-12T09:01:44Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。