論文の概要: Precision Gating: Improving Neural Network Efficiency with Dynamic
Dual-Precision Activations
- arxiv url: http://arxiv.org/abs/2002.07136v2
- Date: Fri, 29 May 2020 03:10:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 12:16:09.980900
- Title: Precision Gating: Improving Neural Network Efficiency with Dynamic
Dual-Precision Activations
- Title(参考訳): 精密ゲーティング:動的2倍精度アクティベーションによるニューラルネットワークの効率向上
- Authors: Yichi Zhang, Ritchie Zhao, Weizhe Hua, Nayun Xu, G. Edward Suh, Zhiru
Zhang
- Abstract要約: PG(Precision Gating)は、ディープニューラルネットワークのためのエンドツーエンドのトレーニング可能な動的二重精度量子化技術である。
PGは、ShuffleNetのような静的に圧縮されたモバイルフレンドリーなネットワークを含むCNNで優れた結果を得る。
8ビットの均一量子化と比較すると、PGは1ワードあたりのパープレキシティが1.2%向上し、LSTMの計算コストは2.7$timesである。
- 参考スコア(独自算出の注目度): 22.71924873981158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose precision gating (PG), an end-to-end trainable dynamic
dual-precision quantization technique for deep neural networks. PG computes
most features in a low precision and only a small proportion of important
features in a higher precision to preserve accuracy. The proposed approach is
applicable to a variety of DNN architectures and significantly reduces the
computational cost of DNN execution with almost no accuracy loss. Our
experiments indicate that PG achieves excellent results on CNNs, including
statically compressed mobile-friendly networks such as ShuffleNet. Compared to
the state-of-the-art prediction-based quantization schemes, PG achieves the
same or higher accuracy with 2.4$\times$ less compute on ImageNet. PG
furthermore applies to RNNs. Compared to 8-bit uniform quantization, PG obtains
a 1.2% improvement in perplexity per word with 2.7$\times$ computational cost
reduction on LSTM on the Penn Tree Bank dataset. Code is available at:
https://github.com/cornell-zhang/dnn-gating
- Abstract(参考訳): 本稿では,ディープニューラルネットワークのためのエンドツーエンドトレーニング可能な動的2重精度量子化技術である精度ゲーティング(PG)を提案する。
PGは低い精度でほとんどの特徴を計算し、精度を維持するために高い精度で重要な特徴のごく一部しか計算しない。
提案手法は様々なDNNアーキテクチャに適用可能であり,精度の低下を伴わずにDNN実行の計算コストを大幅に削減する。
実験の結果, PGはShuffleNetのような静的に圧縮されたモバイルフレンドリーネットワークを含むCNNにおいて優れた結果が得られることがわかった。
最先端の予測ベースの量子化スキームと比較して、PGは ImageNet上で2.4$\times$より少ない計算で同じまたはより高い精度を達成する。
さらに、PGはRNNにも適用される。
8ビットの均一量子化と比較すると、PGはPenn Tree Bankデータセット上のLSTMの計算コストを2.7$\times$2.7$\timesで1ワードあたり1.2%改善する。
コードは、https://github.com/cornell-zhang/dnn-gating.comで入手できる。
関連論文リスト
- FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization Search [50.07268323597872]
本稿では,整数浮動小数点モデルと低精度浮動小数点モデルの両方において再学習を不要とする,最初のワンショット混合量子化探索を提案する。
整数モデルでは、ImageNet上のResNet-18の精度を1.31%、ResNet-50の精度を0.90%向上させる。
従来のFP8モデルと比較して,新しい混合精度浮動小数点探索を探索し,最大0.98%改善した。
論文 参考訳(メタデータ) (2023-08-07T04:17:19Z) - Accurate, Low-latency, Efficient SAR Automatic Target Recognition on
FPGA [3.251765107970636]
合成開口レーダ(SAR)自動目標認識(ATR)はリモートセンシング画像認識の鍵となる技術である。
SAR ATRのための最先端の畳み込みニューラルネットワーク(CNN)は、エンハンハイ計算コストとエンハンラージメモリフットプリントに悩まされている。
本稿では,これらの問題に対処するため,FPGA 上でモデルアーキテクチャを包括的に設計する手法を提案する。
論文 参考訳(メタデータ) (2023-01-04T05:35:30Z) - Efficient CNN Architecture Design Guided by Visualization [13.074652653088584]
VGNetG-1.0MPは0.99Mパラメータで67.7%、ImageNet分類データセットで1.14Mパラメータで69.2%である。
我々のVGNetF-1.5MPは64.4%(-3.2%)のトップ1の精度と66.2%(-1.4%)のトップ1の精度でガウスカーネルを追加している。
論文 参考訳(メタデータ) (2022-07-21T06:22:15Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - FATNN: Fast and Accurate Ternary Neural Networks [89.07796377047619]
Ternary Neural Networks (TNN) は、完全な精度のニューラルネットワークよりもはるかに高速で、電力効率が高いため、多くの注目を集めている。
そこで本研究では、3次内積の計算複雑性を2。
性能ギャップを軽減するために,実装に依存した3次量子化アルゴリズムを精巧に設計する。
論文 参考訳(メタデータ) (2020-08-12T04:26:18Z) - Towards Lossless Binary Convolutional Neural Networks Using Piecewise
Approximation [4.023728681102073]
CNNは算術演算の数とメモリストレージのサイズを大幅に減らすことができる。
しかし、単一のバイナリCNNと複数のバイナリCNNの精度劣化は、現代のアーキテクチャでは受け入れられない。
完全精度の重みとアクティベーションを近似することにより、精度の低下を低減できる複数のバイナリCNNに対するPiecewise Approximationスキームを提案する。
論文 参考訳(メタデータ) (2020-08-08T13:32:33Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z) - Compressing deep neural networks on FPGAs to binary and ternary
precision with HLS4ML [13.325670094073383]
本稿では, hls4mlライブラリにおける2次ニューラルネットワークと3次ニューラルネットワークの実装について述べる。
モデル精度と資源消費のトレードオフについて論じる。
二分法と三分法の実装は、FPGAリソースを劇的に減らしながら高い精度の実装と類似した性能を持つ。
論文 参考訳(メタデータ) (2020-03-11T10:46:51Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。