論文の概要: APNN-TC: Accelerating Arbitrary Precision Neural Networks on Ampere GPU
Tensor Cores
- arxiv url: http://arxiv.org/abs/2106.12169v1
- Date: Wed, 23 Jun 2021 05:39:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 15:27:44.192104
- Title: APNN-TC: Accelerating Arbitrary Precision Neural Networks on Ampere GPU
Tensor Cores
- Title(参考訳): APNN-TC: Ampere GPU Tensor Core上での任意精度ニューラルネットワークの高速化
- Authors: Boyuan Feng, Yuke Wang, Tong Geng, Ang Li, Yufei Ding
- Abstract要約: 我々は、Ampere Coresにおける量子化の利点をフル活用するために、最初のArbitrary Precision Neural Network framework (APNN-TC)を導入する。
APNN-TCは、int1計算プリミティブとXOR/AND演算による任意のビット幅計算をサポートする。
これは、LAS CUTSカーネルとResNetやVGGといった様々なNNモデルよりも大幅に高速化できる。
- 参考スコア(独自算出の注目度): 19.516279899089735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the years, accelerating neural networks with quantization has been
widely studied. Unfortunately, prior efforts with diverse precisions (e.g.,
1-bit weights and 2-bit activations) are usually restricted by limited
precision support on GPUs (e.g., int1 and int4). To break such restrictions, we
introduce the first Arbitrary Precision Neural Network framework (APNN-TC) to
fully exploit quantization benefits on Ampere GPU Tensor Cores. Specifically,
APNN-TC first incorporates a novel emulation algorithm to support arbitrary
short bit-width computation with int1 compute primitives and XOR/AND Boolean
operations. Second, APNN-TC integrates arbitrary precision layer designs to
efficiently map our emulation algorithm to Tensor Cores with novel batching
strategies and specialized memory organization. Third, APNN-TC embodies a novel
arbitrary precision NN design to minimize memory access across layers and
further improve performance. Extensive evaluations show that APNN-TC can
achieve significant speedup over CUTLASS kernels and various NN models, such as
ResNet and VGG.
- Abstract(参考訳): 近年,量子化によるニューラルネットワークの高速化が広く研究されている。
残念なことに、さまざまな精度(1ビットの重みや2ビットのアクティベーションなど)の以前の取り組みは、gpu(例えば、int1やint4)の精度の制限によって制限される。
このような制約を破るために,最初の任意精度ニューラルネットワークフレームワーク(apnn-tc)を導入し,アンペアgpuテンソルコアの量子化利点を十分に活用する。
具体的には、APNN-TCはまず、int1計算プリミティブとXOR/ANDブール演算による任意の短ビット幅計算をサポートする新しいエミュレーションアルゴリズムを組み込んだ。
第2に、APNN-TCは任意の精度層の設計を統合し、エミュレーションアルゴリズムを新しいバッチ戦略と特別なメモリ構成でTensor Coresに効率的にマッピングする。
第3に、apnn-tcは層間のメモリアクセスを最小化し、さらにパフォーマンスを向上させるために、任意の精度のnn設計を具体化する。
大規模な評価の結果、APNN-TCはCUTLASSカーネルやResNetやVGGといったNNモデルよりも大幅に高速化できることがわかった。
関連論文リスト
- ReActXGB: A Hybrid Binary Convolutional Neural Network Architecture for Improved Performance and Computational Efficiency [0.0]
我々はReActXGBというハイブリッドモデルを提案し、ReActNet-Aの完全な畳み込み層をXGBoostに置き換える。
この修正の目的は、より低い計算コストを維持しながら、BCNNと実数値ネットワークのパフォーマンスギャップを狭めることである。
論文 参考訳(メタデータ) (2024-05-11T16:38:50Z) - Compacting Binary Neural Networks by Sparse Kernel Selection [58.84313343190488]
本稿は,BNNにおけるバイナリカーネルの分散化がほぼ不可能であることを示すものである。
我々は、選択過程をエンドツーエンドに最適化するだけでなく、選択したコードワードの非反復的占有を維持できる置換ストレートスルー推定器(PSTE)を開発した。
実験により,提案手法はモデルサイズとビット幅の計算コストの両方を削減し,同等の予算下での最先端のBNNと比較して精度の向上を実現する。
論文 参考訳(メタデータ) (2023-03-25T13:53:02Z) - Training Integer-Only Deep Recurrent Neural Networks [3.1829446824051195]
精度の高い整数専用リカレントニューラルネットワーク(iRNN)を得るための量子化学習法を提案する。
本手法は, 層正規化, 注意, アクティベーション関数の適応的片方向線形(PWL)近似をサポートする。
提案手法により,RNNベースの言語モデルでエッジデバイス上で実行可能である。
論文 参考訳(メタデータ) (2022-12-22T15:22:36Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Sub-bit Neural Networks: Learning to Compress and Accelerate Binary
Neural Networks [72.81092567651395]
Sub-bit Neural Networks (SNN) は、BNNの圧縮と高速化に適した新しいタイプのバイナリ量子化設計である。
SNNは、微細な畳み込みカーネル空間におけるバイナリ量子化を利用するカーネル対応最適化フレームワークで訓練されている。
ビジュアル認識ベンチマークの実験とFPGA上でのハードウェア展開は、SNNの大きな可能性を検証する。
論文 参考訳(メタデータ) (2021-10-18T11:30:29Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Ax-BxP: Approximate Blocked Computation for Precision-Reconfigurable
Deep Neural Network Acceleration [3.7371886886933487]
ディープニューラルネットワーク(DNN)の計算とストレージ要件を最適化する一般的な手法として、精度スケーリングが登場した。
超低精度(sub-8ビット)DNNの作成への取り組みは、与えられたネットワークレベルの精度を達成するために必要な最小精度がネットワーク間で大きく異なることを示唆している。
ビットシリアルハードウェアのような以前の提案は高いオーバーヘッドを発生させ、より精度の低い利点を著しく減らした。
論文 参考訳(メタデータ) (2020-11-25T20:00:38Z) - FATNN: Fast and Accurate Ternary Neural Networks [89.07796377047619]
Ternary Neural Networks (TNN) は、完全な精度のニューラルネットワークよりもはるかに高速で、電力効率が高いため、多くの注目を集めている。
そこで本研究では、3次内積の計算複雑性を2。
性能ギャップを軽減するために,実装に依存した3次量子化アルゴリズムを精巧に設計する。
論文 参考訳(メタデータ) (2020-08-12T04:26:18Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。