Fugu-MT 論文翻訳(概要): Optimization of XNOR Convolution for Binary Convolutional Neural Networks on GPU

論文の概要: Optimization of XNOR Convolution for Binary Convolutional Neural Networks on GPU

arxiv url: http://arxiv.org/abs/2007.14178v1
Date: Tue, 28 Jul 2020 13:01:17 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-06 02:56:20.571952
Title: Optimization of XNOR Convolution for Binary Convolutional Neural Networks on GPU
Title（参考訳）: GPU上の二元畳み込みニューラルネットワークにおけるXNOR畳み込みの最適化
Authors: Mete Can Kaya, Alperen \.Inci, Alptekin Temizel
Abstract要約: 本稿では,GPU上でのバイナリ畳み込みネットワーク推論の実装を提案する。実験の結果、GPUを使用することで、カーネルサイズが3ドル3セントの最大42.61ドルまでスピードアップできることがわかった。
参考スコア（独自算出の注目度）: 2.578242050187029
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Binary convolutional networks have lower computational load and lower memory foot-print compared to their full-precision counterparts. So, they are a feasible alternative for the deployment of computer vision applications on limited capacity embedded devices. Once trained on less resource-constrained computational environments, they can be deployed for real-time inference on such devices. In this study, we propose an implementation of binary convolutional network inference on GPU by focusing on optimization of XNOR convolution. Experimental results show that using GPU can provide a speed-up of up to $42.61\times$ with a kernel size of $3\times3$. The implementation is publicly available at https://github.com/metcan/Binary-Convolutional-Neural-Network-Inference-on-GPU
Abstract（参考訳）: バイナリ畳み込みネットワークは、計算負荷とメモリフットプリントが、全精度のネットワークに比べて低い。そのため、限られた組み込みデバイスにコンピュータビジョンアプリケーションを配置するための、実現可能な代替手段である。リソース制約の少ない計算環境をトレーニングすれば、そのようなデバイス上でリアルタイムの推論にデプロイすることができる。本研究では,xnor畳み込みの最適化に着目し,gpu上でのバイナリ畳み込みネットワーク推論の実装を提案する。実験結果によると、GPUを使用することで、カーネルサイズが32.61\times$のスピードアップが可能になる。実装はhttps://github.com/metcan/Binary-Convolutional-Neural-Network-Inference-on-GPUで公開されている。

関連論文リスト

Enhancing MOTION2NX for Efficient, Scalable and Secure Image Inference using Convolutional Neural Networks [4.407841002228536]
我々は,C++ベースのMOTION2NXフレームワーク上に実装されたABY2.0 SMPCプロトコルを用いて,半正直なセキュリティを備えたセキュア畳み込みニューラルネットワーク(CNN)推論アプリケーションを開発した。また、各CNN層における計算を複数のチャンクに分割する新しい分割アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-08-29T09:50:21Z)
Weight Block Sparsity: Training, Compilation, and AI Engine Accelerators [0.0]
Deep Neural Networks(DNN)が開発、トレーニング、利用され、高度なデバイスと限られたデバイスの両方に負担がかかっている。私たちのソリューションは、ハードウェアに親しみやすい構造化された空間であるエムの重みブロック間隔を実装することです。本稿では,Resnet50,Inception V3,VGG16を用いて,AIE2構成セット(AMD Versal FPGA)の正確かつ完全なコード生成による性能評価を行う。
論文参考訳（メタデータ） (2024-07-12T17:37:49Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文参考訳（メタデータ） (2022-01-16T07:22:47Z)
Sub-bit Neural Networks: Learning to Compress and Accelerate Binary Neural Networks [72.81092567651395]
Sub-bit Neural Networks (SNN) は、BNNの圧縮と高速化に適した新しいタイプのバイナリ量子化設計である。 SNNは、微細な畳み込みカーネル空間におけるバイナリ量子化を利用するカーネル対応最適化フレームワークで訓練されている。ビジュアル認識ベンチマークの実験とFPGA上でのハードウェア展開は、SNNの大きな可能性を検証する。
論文参考訳（メタデータ） (2021-10-18T11:30:29Z)
Content-Aware Convolutional Neural Networks [98.97634685964819]
畳み込みニューラルネットワーク(CNN)は、畳み込み層の強力な特徴学習能力によって大きな成功を収めている。本研究では,スムーズなウィンドウを自動的に検出し,元の大規模カーネルを置き換えるために1x1畳み込みカーネルを適用するContent-aware Convolution (CAC)を提案する。
論文参考訳（メタデータ） (2021-06-30T03:54:35Z)
Quantized Neural Networks via {-1, +1} Encoding Decomposition and Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文参考訳（メタデータ） (2021-06-18T03:11:15Z)
Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文参考訳（メタデータ） (2021-04-16T09:54:30Z)
DistGNN: Scalable Distributed Training for Large-Scale Graph Neural Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。 4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文参考訳（メタデータ） (2021-04-14T08:46:35Z)
At-Scale Sparse Deep Neural Network Inference with Efficient GPU Implementation [24.824295164938604]
本稿では,Sparse Deep Neural Network Challenge 2020の推論モデルに対するGPU性能の最適化とスケーリング結果について述べる。スパースディープニューラルネットワーク(SpDNN)は、大規模なニューラルネットワークのメモリフットプリントを制御することを約束している。本研究では,ReLU関数と融合したスパース行列乗算カーネルを提案する。
論文参考訳（メタデータ） (2020-07-28T12:09:43Z)
Efficient Neural Network Deployment for Microcontroller [0.0]
本稿では,マイクロコントローラのための畳み込みニューラルネットワークの展開を探索し,一般化する。メモリの節約と性能は、ARM Cortex-M CPU用に開発されたCMSIS-NNフレームワークと比較される。最終的な目的は、トレーニングされたネットワーク重みを持つPyTorchモデルを消費するツールを開発することであり、低メモリ(キロバイトレベル)と限られた計算能力を持つマイクロコントローラのためにC/C++で最適化された推論エンジンとなる。
論文参考訳（メタデータ） (2020-07-02T19:21:05Z)
Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文参考訳（メタデータ） (2020-04-19T05:21:20Z)
Performance Aware Convolutional Neural Network Channel Pruning for Embedded GPUs [6.035819238203187]
コンボリューションチャネルの数を減少させ,初期サイズの12%を刈り取ることで,性能を損なう場合がある。また,cuDNNで3倍,Arm Compute LibraryとTVMで10倍以上の性能向上を実現した。
論文参考訳（メタデータ） (2020-02-20T12:07:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。