論文の概要: Searching for Winograd-aware Quantized Networks
- arxiv url: http://arxiv.org/abs/2002.10711v1
- Date: Tue, 25 Feb 2020 07:53:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 20:25:11.691437
- Title: Searching for Winograd-aware Quantized Networks
- Title(参考訳): winograd-aware量子化ネットワークの探索
- Authors: Javier Fernandez-Marques, Paul N. Whatmough, Andrew Mundy, Matthew
Mattina
- Abstract要約: 我々は、ウィノグラード変換によって導入された数値的不正確さを明らかにする畳み込み層のウィノグラード対応の定式化を提案する。
また, 数値誤差の原因にも対処し, 変換行列の形状を緩和し, CIFAR-10の分類精度を最大10%向上させる手法を提案する。
- 参考スコア(独自算出の注目度): 12.351250944079949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lightweight architectural designs of Convolutional Neural Networks (CNNs)
together with quantization have paved the way for the deployment of demanding
computer vision applications on mobile devices. Parallel to this, alternative
formulations to the convolution operation such as FFT, Strassen and Winograd,
have been adapted for use in CNNs offering further speedups. Winograd
convolutions are the fastest known algorithm for spatially small convolutions,
but exploiting their full potential comes with the burden of numerical error,
rendering them unusable in quantized contexts. In this work we propose a
Winograd-aware formulation of convolution layers which exposes the numerical
inaccuracies introduced by the Winograd transformations to the learning of the
model parameters, enabling the design of competitive quantized models without
impacting model size. We also address the source of the numerical error and
propose a relaxation on the form of the transformation matrices, resulting in
up to 10% higher classification accuracy on CIFAR-10. Finally, we propose
wiNAS, a neural architecture search (NAS) framework that jointly optimizes a
given macro-architecture for accuracy and latency leveraging Winograd-aware
layers. A Winograd-aware ResNet-18 optimized with wiNAS for CIFAR-10 results in
2.66x speedup compared to im2row, one of the most widely used optimized
convolution implementations, with no loss in accuracy.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)の軽量なアーキテクチャ設計と量子化は、要求の多いコンピュータビジョンアプリケーションをモバイルデバイスに展開するための道を開いた。
これと並行して、FFT、Strassen、Winogradといった畳み込み操作に対する代替の定式化がCNNでさらに高速化された。
ウィノグラード畳み込み(Winograd convolutions)は空間的に小さな畳み込みのアルゴリズムとして知られているが、その潜在能力を最大限活用するには数値的な誤差が伴う。
本研究では、モデルパラメータの学習にウィノグラード変換が導入した数値的不正確さを露呈し、モデルサイズに影響を与えることなく競合量子化モデルの設計を可能にする。
また, 数値誤差の原因にも対処し, 変換行列の形状を緩和し, CIFAR-10の分類精度を最大10%向上させる手法を提案する。
最後に,WiNASを提案する。これはニューラルネットワーク検索(NAS)フレームワークで,Winograd対応のレイヤを活用して,与えられたマクロアーキテクチャの精度とレイテンシを最適化する。
wiNASをCIFAR-10向けに最適化したWinograd-aware ResNet-18は、最も広く使われている畳み込み実装であるim2rowと比較して2.66倍のスピードアップとなり、精度は低下しない。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。
総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-03-21T02:33:37Z) - Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like
Architectures [99.20299078655376]
本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。
我々のモデルは、スパース入力を効率的に処理し、ロバストなグローバル処理能力を実証するために設計されている。
評価の結果,VRWKVは画像分類におけるViTの性能を超え,高速化とメモリ使用量の削減を図っている。
論文 参考訳(メタデータ) (2024-03-04T18:46:20Z) - Tetra-AML: Automatic Machine Learning via Tensor Networks [0.0]
本稿では,ニューラルネットワーク検索とハイパーパラメータ最適化を自動化するTetra-AMLツールボックスを紹介する。
ツールボックスはまた、テンソルネットワークを使用した圧縮によって強化された、量子化とプルーニングによるモデル圧縮も提供する。
ここでは、コンピュータビジョンタスクにおけるニューラルネットワークの最適化のための統一ベンチマークを分析し、我々のアプローチの優れた性能を示す。
論文 参考訳(メタデータ) (2023-03-28T12:56:54Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z) - INT8 Winograd Acceleration for Conv1D Equipped ASR Models Deployed on
Mobile Devices [16.13681155725083]
自動音声認識(ASR)モデルの集中的な計算は、モバイルデバイスへの展開を妨げる。
ASRモデルのモバイルデバイス上で効率的な推論高速化を実現するために,量子化と高速畳み込みを組み合わせた新しい量子化Winograd最適化パイプラインを提案する。
論文 参考訳(メタデータ) (2020-10-28T09:25:49Z) - CNN Acceleration by Low-rank Approximation with Quantized Factors [9.654865591431593]
現代の畳み込みニューラルネットワークは複雑なコンピュータビジョンタスクの解決において大きな成果を上げているが、モバイルや組み込みデバイスでは効果的に利用できない。
この問題を解決するために、タッカー形式の低ランクテンソル近似と重みの量子化と特徴写像(アクティベーション)という2つの既知の手法を組み合わせた新しい手法を提案する。
CIFAR-10, CIFAR-100, Imagenet分類タスクにおけるResNet18とResNet34の効率を実証した。
論文 参考訳(メタデータ) (2020-06-16T02:28:05Z) - LANCE: Efficient Low-Precision Quantized Winograd Convolution for Neural
Networks Based on Graphics Processing Units [6.110973485878557]
我々は,高速畳み込みと量子化の利点を組み合わせた,LANCEと呼ばれる高速な低精度量子化ウィノグラード畳み込みアルゴリズムを提案する。
8ビットの量子化Winograd畳み込みは、精度の低下を伴う完全精度畳み込みよりも最大2.40倍の性能向上を示す。
論文 参考訳(メタデータ) (2020-03-19T09:46:50Z) - Lightweight Residual Densely Connected Convolutional Neural Network [18.310331378001397]
畳み込みニューラルネットワークの深い監督, 効率的な勾配流, 特徴再利用能力を保証するために, 軽量な高密度連結ブロックを提案する。
提案手法は,特別なハードウェア・ソフトウェア機器を使わずに,トレーニングと推論のコストを低減させる。
論文 参考訳(メタデータ) (2020-01-02T17:15:32Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。