論文の概要: Accelerating Binarized Neural Networks via Bit-Tensor-Cores in Turing
GPUs
- arxiv url: http://arxiv.org/abs/2006.16578v2
- Date: Tue, 15 Dec 2020 00:13:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 06:24:35.089622
- Title: Accelerating Binarized Neural Networks via Bit-Tensor-Cores in Turing
GPUs
- Title(参考訳): チューリングGPUにおけるビットテンソルコアによる二元化ニューラルネットワークの高速化
- Authors: Ang Li and Simon Su
- Abstract要約: バイナリニューラルネットワーク(BNN)は、従来のディープニューラルネットワークよりも大幅に高速化されている。
NVIDIA Turing GPUの最新のテンソルコアは、ビット計算を実験的にサポートし始めた。
私たちのBTC-BNN設計では、ImageNetの処理速度は毎秒5.6Kで、最先端技術よりも77%高速です。
- 参考スコア(独自算出の注目度): 15.02711144514149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite foreseeing tremendous speedups over conventional deep neural
networks, the performance advantage of binarized neural networks (BNNs) has
merely been showcased on general-purpose processors such as CPUs and GPUs. In
fact, due to being unable to leverage bit-level-parallelism with a word-based
architecture, GPUs have been criticized for extremely low utilization (1%) when
executing BNNs. Consequently, the latest tensorcores in NVIDIA Turing GPUs
start to experimentally support bit computation. In this work, we look into
this brand new bit computation capability and characterize its unique features.
We show that the stride of memory access can significantly affect performance
delivery and a data-format co-design is highly desired to support the
tensorcores for achieving superior performance than existing software solutions
without tensorcores. We realize the tensorcore-accelerated BNN design,
particularly the major functions for fully-connect and convolution layers --
bit matrix multiplication and bit convolution. Evaluations on two NVIDIA Turing
GPUs show that, with ResNet-18, our BTC-BNN design can process ImageNet at a
rate of 5.6K images per second, 77% faster than state-of-the-art. Our BNN
approach is released on https://github.com/pnnl/TCBNN.
- Abstract(参考訳): 従来のディープニューラルネットワークよりも大幅にスピードアップするが、binarized neural networks(bnns)のパフォーマンス上の優位性は、cpuやgpuといった汎用プロセッサでのみ実証されている。
実際、ワードベースのアーキテクチャではビットレベルの並列処理を利用できないため、GPUはBNNの実行時に非常に低い使用率(1%)で批判されている。
その結果、NVIDIA Turing GPUの最新のテンソルコアは、ビット計算を実験的にサポートし始めた。
本稿では,この新たなビット計算機能について検討し,その特徴を特徴付ける。
メモリアクセスの進歩はパフォーマンスに大きく影響し,テンソルコアのない既存のソフトウェアソリューションよりも優れたパフォーマンスを実現するために,データフォーマットの共設計が望まれている。
テンソルコア加速BNN設計,特に完全接続層と畳み込み層とビット行列乗算とビット畳み込みの主要な機能を実現する。
2つのNVIDIA Turing GPUの評価によると、ResNet-18では、BTC-BNNの設計により、ImageNetを毎秒5.6Kで処理でき、最先端技術よりも77%高速である。
私たちのBNNアプローチはhttps://github.com/pnnl/TCBNNで公開されています。
関連論文リスト
- BitGNN: Unleashing the Performance Potential of Binary Graph Neural
Networks on GPUs [19.254040098787893]
最近の研究によると、バイナリグラフニューラルネットワーク(GNN)は双有理テンソルによるGNNの計算を省くことを約束している。
この作業は、効率の観点からバイナリGNN推論を再設計する。
GCN、GraphSAGE、GraphSAINTによる実世界のグラフの結果、提案手法は、同じ精度で8-22Xで最先端のバイナリGNN実装より優れていた。
論文 参考訳(メタデータ) (2023-05-04T03:20:25Z) - Exploiting Kernel Compression on BNNs [0.0]
本研究では,一組の重みを表す一意列の数が典型的に低いことを観察する。
本稿では、最も一般的なビット列を識別し、あまり一般的でないビット列を類似の共通配列に置き換えるクラスタリング手法を提案する。
実験結果から,本手法はメモリ要求量を1.32倍に削減し,性能を1.35倍に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-12-01T16:05:10Z) - TC-GNN: Bridging Sparse GNN Computation and Dense Tensor Cores on GPUs [21.63854538768414]
我々はGPUコアユニット(TCU)をベースとした最初のGNNフレームワークであるTC-GNNを提案する。
中心となるアイデアは、"スパース"GNNを高性能な"デンス"TCUと整合させることである。
厳密な実験は、最先端のDGLフレームワーク上で平均1.70のスピードアップを示している。
論文 参考訳(メタデータ) (2021-12-03T18:06:23Z) - Sub-bit Neural Networks: Learning to Compress and Accelerate Binary
Neural Networks [72.81092567651395]
Sub-bit Neural Networks (SNN) は、BNNの圧縮と高速化に適した新しいタイプのバイナリ量子化設計である。
SNNは、微細な畳み込みカーネル空間におけるバイナリ量子化を利用するカーネル対応最適化フレームワークで訓練されている。
ビジュアル認識ベンチマークの実験とFPGA上でのハードウェア展開は、SNNの大きな可能性を検証する。
論文 参考訳(メタデータ) (2021-10-18T11:30:29Z) - Content-Aware Convolutional Neural Networks [98.97634685964819]
畳み込みニューラルネットワーク(CNN)は、畳み込み層の強力な特徴学習能力によって大きな成功を収めている。
本研究では,スムーズなウィンドウを自動的に検出し,元の大規模カーネルを置き換えるために1x1畳み込みカーネルを適用するContent-aware Convolution (CAC)を提案する。
論文 参考訳(メタデータ) (2021-06-30T03:54:35Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - FracBNN: Accurate and FPGA-Efficient Binary Neural Networks with
Fractional Activations [20.218382369944152]
binary neural network (bnns) は1ビットの重みとアクティベーションを持つ。
BNNはImageNetのような現実的なデータセットの精度がはるかに低い傾向にある。
本研究では、BNNの精度を大幅に向上させるために分数活性化を利用するFracBNNを提案する。
論文 参考訳(メタデータ) (2020-12-22T17:49:30Z) - At-Scale Sparse Deep Neural Network Inference with Efficient GPU
Implementation [24.824295164938604]
本稿では,Sparse Deep Neural Network Challenge 2020の推論モデルに対するGPU性能の最適化とスケーリング結果について述べる。
スパースディープニューラルネットワーク(SpDNN)は、大規模なニューラルネットワークのメモリフットプリントを制御することを約束している。
本研究では,ReLU関数と融合したスパース行列乗算カーネルを提案する。
論文 参考訳(メタデータ) (2020-07-28T12:09:43Z) - Distillation Guided Residual Learning for Binary Convolutional Neural
Networks [83.6169936912264]
Binary CNN(BCNN)とFloating Point CNN(FCNN)のパフォーマンスギャップを埋めることは難しい。
我々は,この性能差が,BCNNとFCNNの中間特徴写像の間にかなりの残差をもたらすことを観察した。
性能ギャップを最小限に抑えるため,BCNN は FCNN と同様の中間特徴写像を生成する。
このトレーニング戦略、すなわち、FCNNから派生したブロックワイド蒸留損失で各バイナリ畳み込みブロックを最適化することで、BCNNをより効果的に最適化する。
論文 参考訳(メタデータ) (2020-07-10T07:55:39Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。