Fugu-MT 論文翻訳(概要): Kernel-Segregated Transpose Convolution Operation

論文の概要: Kernel-Segregated Transpose Convolution Operation

arxiv url: http://arxiv.org/abs/2209.03704v1
Date: Thu, 8 Sep 2022 10:42:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-09 12:36:59.727768
Title: Kernel-Segregated Transpose Convolution Operation
Title（参考訳）: カーネル分離トランスポージ畳み込み動作
Authors: Vijay Srinivas Tida, Sai Venkatesh Chilukoti, Xiali Hei, Sonya Hsu
Abstract要約: 転位畳み込み層は、各行と列の各要素にゼロを加算するため、特徴写像のサイズが大きくなるため、計算集約的である。これらの問題を解決するために,効率的な変換畳み込み実装のためのアルゴリズムレベルの最適化手法を提案する。
参考スコア（独自算出の注目度）: 2.9822184411723645
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transpose convolution has shown prominence in many deep learning applications. However, transpose convolution layers are computationally intensive due to the increased feature map size due to adding zeros after each element in each row and column. Thus, convolution operation on the expanded input feature map leads to poor utilization of hardware resources. The main reason for unnecessary multiplication operations is zeros at predefined positions in the input feature map. We propose an algorithmic-level optimization technique for the effective transpose convolution implementation to solve these problems. Based on kernel activations, we segregated the original kernel into four sub-kernels. This scheme could reduce memory requirements and unnecessary multiplications. Our proposed method was $3.09 (3.02) \times$ faster computation using the Titan X GPU (Intel Dual Core CPU) with a flower dataset from the Kaggle website. Furthermore, the proposed optimization method can be generalized to existing devices without additional hardware requirements. A simple deep learning model containing one transpose convolution layer was used to evaluate the optimization method. It showed $2.2 \times$ faster training using the MNIST dataset with an Intel Dual-core CPU than the conventional implementation.
Abstract（参考訳）: 変換畳み込みは多くのディープラーニングアプリケーションで顕著である。しかし,各列と列の各要素にゼロを加算することにより特徴写像のサイズが大きくなるため,変換畳み込み層は計算集約的である。したがって、拡張された入力特徴マップ上の畳み込み操作は、ハードウェアリソースの活用を損なう。不要な乗算演算の主な理由は、入力特徴マップにおける予め定義された位置における零点である。これらの問題を解決するために,効果的な畳み込み実装のためのアルゴリズムレベルの最適化手法を提案する。カーネルアクティベーションに基づいて、元のカーネルを4つのサブカーネルに分離する。このスキームはメモリ要求と不要な乗算を減らすことができる。提案手法はtitan x gpu (intel dual core cpu) とkaggle webサイトのフラワーデータセットを用いた3.09 (3.02) \times$高速計算である。さらに,提案手法はハードウェアを必要とせずに既存デバイスに一般化することができる。 1つの転置畳み込み層を含む簡易深層学習モデルを用いて最適化手法の評価を行った。 MNISTデータセットとIntel Dual-core CPUを使用した2.2 \times$のトレーニングを従来の実装よりも高速化した。

関連論文リスト

Orthogonal Finetuning Made Scalable [87.49040247077389]
OFT(Orthogonal Finetuning)は、壊滅的な忘れ込みを防止しつつ、パラメータ効率の高い適応を提供するが、実行時とメモリの要求が高いため、実際のデプロイメントが制限される。ここでは,OFTの計算ボトルネックを重み中心の実装とみなす。本稿では,行列ベクトル乗法(行列フリー計算)を用いて,計算コストを2次に削減する入力中心の変換法OFTv2を提案する。これらの修正により、OFTv2はパフォーマンスを損なうことなく、最大10倍高速なトレーニングと3倍のGPUメモリ使用率を達成することができる。
論文参考訳（メタデータ） (2025-06-24T17:59:49Z)
Unified Kernel-Segregated Transpose Convolution Operation [3.4558311080267954]
本稿では,メモリと計算資源の使用を制限する統一カーネル分離手法を提案する。 EB-GANモデルにおける畳み込み層を変換する方法は,最大35MBのメモリ節約効果を示す。
論文参考訳（メタデータ） (2025-02-27T19:56:25Z)
An Efficient Sparse Kernel Generator for O(3)-Equivariant Deep Networks [0.5737287537823071]
回転同変グラフニューラルネットワークは、空間深層学習タスクにおける最先端の性能を得る。クレーブシュ=ゴルドンテンソル積(Clebsch-Gordon tensor product, CG)は、2つの高次特徴ベクトルと高度に構造化されたスパーステンソルを交換して高密度出力ベクトルを生成するカーネルである。我々は,CGテンソル製品用のGPUスパースカーネルジェネレータを導入し,既存のオープンソース実装とクローズドソース実装の大幅な高速化を実現した。
論文参考訳（メタデータ） (2025-01-23T08:20:47Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
Reduce Computational Complexity for Convolutional Layers by Skipping Zeros [9.833821501774596]
本稿では,畳み込みニューラルネットワークの効率的なアルゴリズムを提案する。 C-K-SアルゴリズムにはGPUの効率的な実装が伴っている。実験により、C-K-Sは速度と収束の点で優れた性能を示すことが示された。
論文参考訳（メタデータ） (2023-06-28T06:21:22Z)
Im2win: Memory Efficient Convolution On SIMD Architectures [2.153650601445911]
我々は、im2winと呼ばれる新しいメモリ効率のよいデータ変換アルゴリズムを提案する。その結果,PyTorchの畳み込み実装と比較して,メモリオーバーヘッドを平均41.6%削減できることがわかった。
論文参考訳（メタデータ） (2023-06-25T19:21:10Z)
Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。 RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文参考訳（メタデータ） (2022-10-21T15:56:13Z)
Content-Aware Convolutional Neural Networks [98.97634685964819]
畳み込みニューラルネットワーク(CNN)は、畳み込み層の強力な特徴学習能力によって大きな成功を収めている。本研究では,スムーズなウィンドウを自動的に検出し,元の大規模カーネルを置き換えるために1x1畳み込みカーネルを適用するContent-aware Convolution (CAC)を提案する。
論文参考訳（メタデータ） (2021-06-30T03:54:35Z)
VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。 textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文参考訳（メタデータ） (2021-05-04T04:10:48Z)
Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文参考訳（メタデータ） (2021-04-16T09:54:30Z)
GPU-Accelerated Optimizer-Aware Evaluation of Submodular Exemplar Clustering [5.897728689802829]
サブモジュール関数の最適化は、クラスタリングを実行する実行可能な方法を構成する。強近似保証と実現可能な最適化 w.r.t. ストリーミングデータはこのクラスタリングアプローチが好都合です exemplarベースのクラスタリングは、可能なサブモジュラー関数の1つであるが、高い計算複雑性に苦しむ。半精度のGPU計算は、シングル精度のシングルスレッドCPU計算と比較して452倍の高速化を実現した。
論文参考訳（メタデータ） (2021-01-21T18:23:44Z)
Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文参考訳（メタデータ） (2020-06-18T08:16:25Z)
Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文参考訳（メタデータ） (2020-04-19T05:21:20Z)
Efficient Tensor Kernel methods for sparse regression [39.95662930240854]
そこで本研究では,下層の回帰問題の解における空間性を促進するために,適切なテンソルカーネルを導入する。テンソルを格納するにはかなりの量のメモリが必要で、最終的には適用性を制限する。まず、データを格納するための新しいより効率的なレイアウトを導入することにより、メモリ要求を直接削減する。第二に、Nystrom型サブサンプリングアプローチを用いて、少ないデータポイントでトレーニングフェーズを実現できるので、計算コストを削減できる。
論文参考訳（メタデータ） (2020-03-23T18:26:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。