論文の概要: HANT: Hardware-Aware Network Transformation
- arxiv url: http://arxiv.org/abs/2107.10624v1
- Date: Mon, 12 Jul 2021 18:46:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-25 12:00:39.653269
- Title: HANT: Hardware-Aware Network Transformation
- Title(参考訳): HANT: ハードウェア対応ネットワークトランスフォーメーション
- Authors: Pavlo Molchanov and Jimmy Hall and Hongxu Yin and Jan Kautz and Nicolo
Fusi and Arash Vahdat
- Abstract要約: ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
- 参考スコア(独自算出の注目度): 82.54824188745887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a trained network, how can we accelerate it to meet efficiency needs
for deployment on particular hardware? The commonly used hardware-aware network
compression techniques address this question with pruning, kernel fusion,
quantization and lowering precision. However, these approaches do not change
the underlying network operations. In this paper, we propose hardware-aware
network transformation (HANT), which accelerates a network by replacing
inefficient operations with more efficient alternatives using a neural
architecture search like approach. HANT tackles the problem in two phase: In
the first phase, a large number of alternative operations per every layer of
the teacher model is trained using layer-wise feature map distillation. In the
second phase, the combinatorial selection of efficient operations is relaxed to
an integer optimization problem that can be solved in a few seconds. We extend
HANT with kernel fusion and quantization to improve throughput even further.
Our experimental results on accelerating the EfficientNet family show that HANT
can accelerate them by up to 3.6x with <0.4% drop in the top-1 accuracy on the
ImageNet dataset. When comparing the same latency level, HANT can accelerate
EfficientNet-B4 to the same latency as EfficientNet-B1 while having 3% higher
accuracy. We examine a large pool of operations, up to 197 per layer, and we
provide insights into the selected operations and final architectures.
- Abstract(参考訳): トレーニングされたネットワークを前提にすれば、特定のハードウェアへのデプロイの効率性にどのように対応できるでしょうか?
一般的に使われているハードウェア対応ネットワーク圧縮技術は、プルーニング、カーネル融合、量子化、精度低下といった問題に対処する。
しかし、これらのアプローチは基盤となるネットワーク操作を変えない。
本稿では,ニューラルネットワーク検索のようなアプローチを用いて,非効率な操作をより効率的な代替手段に置き換えることで,ネットワークを高速化するハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
第1フェーズでは、教師モデルの各レイヤ毎の多数の代替操作を、階層的特徴写像蒸留を用いてトレーニングする。
第2段階では、効率的な演算の組合せ選択は、数秒で解決できる整数最適化問題に緩和される。
カーネルの融合と量子化によりHANTを拡張してスループットをさらに向上する。
EfficientNetファミリの高速化に関する実験結果は、ImageNetデータセットのトップ1の精度において、HANTが最大3.6倍、<0.4%削減できることを示している。
同じレイテンシレベルを比較する場合、HANTはEfficientNet-B4を3%高い精度でEfficientNet-B1と同じレイテンシに高速化することができる。
1層あたり197層までの大規模なオペレーションプールを調査し、選択したオペレーションと最終アーキテクチャに関する洞察を提供する。
関連論文リスト
- Exploring Quantization and Mapping Synergy in Hardware-Aware Deep Neural Network Accelerators [0.20971479389679332]
CNN推論アクセラレータに実装された畳み込みニューラルネットワーク(CNN)のエネルギー効率とメモリフットプリントは多くの要因に依存する。
実装中にリッチな混合量子化スキームを有効にすることで、以前に隠れていたマッピングの空間を開放できることが示される。
量子化重みとアクティベーションと適切なマッピングを利用するCNNは、精度、エネルギ、メモリ要求間のトレードオフを大幅に改善することができる。
論文 参考訳(メタデータ) (2024-04-08T10:10:30Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Efficient Latency-Aware CNN Depth Compression via Two-Stage Dynamic
Programming [15.458305667190256]
本稿では,一般的な畳み込み操作を対象とする新しい深度圧縮アルゴリズムを提案する。
ImageNetのMobileNetV2-1.0では、0.11%の精度で1.41タイムのスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-01-28T13:08:54Z) - RedBit: An End-to-End Flexible Framework for Evaluating the Accuracy of
Quantized CNNs [9.807687918954763]
畳み込みニューラルネットワーク(CNN)は、画像処理、分類、セグメンテーションタスクのためのディープニューラルネットワークの標準クラスとなっている。
RedBitは、透過的で使いやすいインターフェースを提供するオープンソースのフレームワークで、異なるアルゴリズムの有効性をネットワークの精度で評価する。
論文 参考訳(メタデータ) (2023-01-15T21:27:35Z) - TCT: Convexifying Federated Learning using Bootstrapped Neural Tangent
Kernels [141.29156234353133]
最先端の凸学習手法は、クライアントが異なるデータ分布を持つ場合、集中型よりもはるかにパフォーマンスが劣る。
我々は、この格差は、非NISTityが提示した課題に大きく起因していることを示す。
本稿では,Train-Convexify Neural Network (TCT) 手法を提案する。
論文 参考訳(メタデータ) (2022-07-13T16:58:22Z) - Learning strides in convolutional neural networks [34.20666933112202]
この研究は、学習可能なステップを持つ最初のダウンサンプリング層であるDiffStrideを紹介している。
音声と画像の分類実験は,ソリューションの汎用性と有効性を示す。
論文 参考訳(メタデータ) (2022-02-03T16:03:36Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - Efficient Bitwidth Search for Practical Mixed Precision Neural Network [33.80117489791902]
ネットワーク量子化は、ディープニューラルネットワークを圧縮し加速する最も広く使われている方法の1つとなっている。
近年の研究では、異なる精度で異なる層からの重みと活性化を定量化し、全体的な性能を向上させることを提案する。
それぞれの層の重みと活性化に最適なビット幅(すなわち精度)を見つけることは困難である。
一般的なハードウェアプラットフォーム上で、異なる精度の重み付けとアクティベーションのためにどのように畳み込みを実行するかは、まだ不明である。
論文 参考訳(メタデータ) (2020-03-17T08:27:48Z) - Convolutional Networks with Dense Connectivity [59.30634544498946]
Dense Convolutional Network (DenseNet)を導入し、フィードフォワード方式で各レイヤを他のすべてのレイヤに接続する。
各レイヤについて、先行するすべてのレイヤのフィーチャーマップをインプットとして使用し、それ自身のフィーチャーマップをその後のすべてのレイヤへのインプットとして使用します。
提案したアーキテクチャを、4つの高度に競争力のあるオブジェクト認識ベンチマークタスクで評価する。
論文 参考訳(メタデータ) (2020-01-08T06:54:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。