論文の概要: Kernel-Segregated Transpose Convolution Operation
- arxiv url: http://arxiv.org/abs/2209.03704v1
- Date: Thu, 8 Sep 2022 10:42:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 12:36:59.727768
- Title: Kernel-Segregated Transpose Convolution Operation
- Title(参考訳): カーネル分離トランスポージ畳み込み動作
- Authors: Vijay Srinivas Tida, Sai Venkatesh Chilukoti, Xiali Hei, Sonya Hsu
- Abstract要約: 転位畳み込み層は、各行と列の各要素にゼロを加算するため、特徴写像のサイズが大きくなるため、計算集約的である。
これらの問題を解決するために,効率的な変換畳み込み実装のためのアルゴリズムレベルの最適化手法を提案する。
- 参考スコア(独自算出の注目度): 2.9822184411723645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transpose convolution has shown prominence in many deep learning
applications. However, transpose convolution layers are computationally
intensive due to the increased feature map size due to adding zeros after each
element in each row and column. Thus, convolution operation on the expanded
input feature map leads to poor utilization of hardware resources. The main
reason for unnecessary multiplication operations is zeros at predefined
positions in the input feature map. We propose an algorithmic-level
optimization technique for the effective transpose convolution implementation
to solve these problems. Based on kernel activations, we segregated the
original kernel into four sub-kernels. This scheme could reduce memory
requirements and unnecessary multiplications. Our proposed method was $3.09
(3.02) \times$ faster computation using the Titan X GPU (Intel Dual Core CPU)
with a flower dataset from the Kaggle website. Furthermore, the proposed
optimization method can be generalized to existing devices without additional
hardware requirements. A simple deep learning model containing one transpose
convolution layer was used to evaluate the optimization method. It showed $2.2
\times$ faster training using the MNIST dataset with an Intel Dual-core CPU
than the conventional implementation.
- Abstract(参考訳): 変換畳み込みは多くのディープラーニングアプリケーションで顕著である。
しかし,各列と列の各要素にゼロを加算することにより特徴写像のサイズが大きくなるため,変換畳み込み層は計算集約的である。
したがって、拡張された入力特徴マップ上の畳み込み操作は、ハードウェアリソースの活用を損なう。
不要な乗算演算の主な理由は、入力特徴マップにおける予め定義された位置における零点である。
これらの問題を解決するために,効果的な畳み込み実装のためのアルゴリズムレベルの最適化手法を提案する。
カーネルアクティベーションに基づいて、元のカーネルを4つのサブカーネルに分離する。
このスキームはメモリ要求と不要な乗算を減らすことができる。
提案手法はtitan x gpu (intel dual core cpu) とkaggle webサイトのフラワーデータセットを用いた3.09 (3.02) \times$高速計算である。
さらに,提案手法はハードウェアを必要とせずに既存デバイスに一般化することができる。
1つの転置畳み込み層を含む簡易深層学習モデルを用いて最適化手法の評価を行った。
MNISTデータセットとIntel Dual-core CPUを使用した2.2 \times$のトレーニングを従来の実装よりも高速化した。
関連論文リスト
- INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Reduce Computational Complexity for Convolutional Layers by Skipping Zeros [9.833821501774596]
本稿では,畳み込みニューラルネットワークの効率的なアルゴリズムを提案する。
C-K-SアルゴリズムにはGPUの効率的な実装が伴っている。
実験により、C-K-Sは速度と収束の点で優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2023-06-28T06:21:22Z) - Im2win: Memory Efficient Convolution On SIMD Architectures [2.153650601445911]
我々は、im2winと呼ばれる新しいメモリ効率のよいデータ変換アルゴリズムを提案する。
その結果,PyTorchの畳み込み実装と比較して,メモリオーバーヘッドを平均41.6%削減できることがわかった。
論文 参考訳(メタデータ) (2023-06-25T19:21:10Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Content-Aware Convolutional Neural Networks [98.97634685964819]
畳み込みニューラルネットワーク(CNN)は、畳み込み層の強力な特徴学習能力によって大きな成功を収めている。
本研究では,スムーズなウィンドウを自動的に検出し,元の大規模カーネルを置き換えるために1x1畳み込みカーネルを適用するContent-aware Convolution (CAC)を提案する。
論文 参考訳(メタデータ) (2021-06-30T03:54:35Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - GPU-Accelerated Optimizer-Aware Evaluation of Submodular Exemplar
Clustering [5.897728689802829]
サブモジュール関数の最適化は、クラスタリングを実行する実行可能な方法を構成する。
強近似保証と実現可能な最適化 w.r.t.
ストリーミングデータはこのクラスタリングアプローチが好都合です
exemplarベースのクラスタリングは、可能なサブモジュラー関数の1つであるが、高い計算複雑性に苦しむ。
半精度のGPU計算は、シングル精度のシングルスレッドCPU計算と比較して452倍の高速化を実現した。
論文 参考訳(メタデータ) (2021-01-21T18:23:44Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z) - Efficient Tensor Kernel methods for sparse regression [39.95662930240854]
そこで本研究では,下層の回帰問題の解における空間性を促進するために,適切なテンソルカーネルを導入する。
テンソルを格納するにはかなりの量のメモリが必要で、最終的には適用性を制限する。
まず、データを格納するための新しいより効率的なレイアウトを導入することにより、メモリ要求を直接削減する。
第二に、Nystrom型サブサンプリングアプローチを用いて、少ないデータポイントでトレーニングフェーズを実現できるので、計算コストを削減できる。
論文 参考訳(メタデータ) (2020-03-23T18:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。