論文の概要: Reduce Computational Complexity for Convolutional Layers by Skipping
Zeros
- arxiv url: http://arxiv.org/abs/2306.15951v2
- Date: Wed, 12 Jul 2023 08:18:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 18:48:17.938561
- Title: Reduce Computational Complexity for Convolutional Layers by Skipping
Zeros
- Title(参考訳): 零点スキップによる畳み込み層の計算複雑性の低減
- Authors: Zhiyi Zhang, Pengfei Zhang, Zhuopin Xu, Qi Wang
- Abstract要約: 本稿では,C-K-Sアルゴリズム(ConvV2,KS-deconv,Sk-dilated)を提案する。
フィルタをトリムしてパッド付き0sを除外し、スパーステンソルを高密度テンソルに変換し、デコンボリューションや拡張畳み込みの0sを避ける。
特定のケースではPyTorchよりもアドバンテージがあり、特に小さなフィーチャーマップのデコンボリューションにおいてである。
- 参考スコア(独自算出の注目度): 15.668454960906002
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep neural networks rely on parallel processors for acceleration. To design
operators for them, it requires not only good algorithm to reduce complexity,
but also sufficient utilization of hardwares. Convolutional layers mainly
contain 3 kinds of operators: convolution in forward propagation, deconvolution
and dilated-convolution in backward propagation. When executing these
operators, 0s are always added to tensors, causing redundant calculations. This
paper gives C-K-S algorithm (ConvV2, KS-deconv, Sk-dilated), which skips these
0s in two ways: trim the filters to exclude padded 0s; transform sparse tensors
to dense tensors, to avoid inserted 0s in deconvolution and
dilated-convolution. In contrast to regular convolution, deconvolution is hard
to accelerate due to its complicacy. This paper provides high-performance GPU
implementations of C-K-S, and verifies their effectiveness with comparison to
PyTorch. According to the experiments, C-K-S has advantages over PyTorch in
certain cases, especially in deconvolution on small feature-maps. Further
enhancement of C-K-S can be done by making full optimizations oriented at
specific GPU architectures.
- Abstract(参考訳): ディープニューラルネットワークはアクセラレーションのために並列プロセッサに依存している。
オペレータを設計するには、複雑さを減らすための優れたアルゴリズムだけでなく、ハードウェアの十分な利用が必要である。
畳み込み層は主に3種類の演算子を含む:前方伝播における畳み込み、逆伝播における畳み込み、拡張畳み込み。
これらの演算子を実行するとき、0は常にテンソルに追加され、冗長な計算を引き起こす。
本稿では, c-k-sアルゴリズム(convv2, ks-deconv, sk-dilated)について述べる。フィルタを分割してパッド付き0を除外し, 疎テンソルを密度テンソルに変換する。
通常の畳み込みとは対照的に、畳み込みは複雑さのため加速しにくい。
本稿では,C-K-Sの高性能GPU実装について述べるとともに,PyTorchとの比較による検証を行った。
実験によると、C-K-SはPyTorchよりも利点があり、特に小さな特徴写像のデコンボリューションにおいて有利である。
C-K-Sのさらなる強化は、特定のGPUアーキテクチャで完全な最適化を行うことによって達成できる。
関連論文リスト
- Flexible Coded Distributed Convolution Computing for Enhanced Fault Tolerance and Numerical Stability in Distributed CNNs [26.347141131107172]
本稿では,Flexible Coded Distributed Convolution Computingフレームワークを紹介する。
分散CNNの耐障害性と数値安定性を向上させる。
実験的な結果は、計算効率、耐障害性、スケーラビリティにおけるフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2024-11-03T14:05:29Z) - Kolmogorov-Arnold Transformer [72.88137795439407]
Kolmogorov-Arnold Transformer(KAT)は,階層をKAN(Kolmogorov-Arnold Network)層に置き換える新しいアーキテクチャである。
C1)基本関数,(C2)非効率,(C3)重みの3つの主要な課題を特定する。
これらの設計により、KATは従来のトランスフォーマーよりも優れている。
論文 参考訳(メタデータ) (2024-09-16T17:54:51Z) - Convolutions and More as Einsum: A Tensor Network Perspective with Advances for Second-Order Methods [2.8645507575980074]
我々はそれらをテンソルネットワーク(TN)として見ることで畳み込みを単純化する
TN はダイアグラムを描画し、微分のような関数変換を実行するようにそれらを操作し、それらを固有値で効率的に評価することで、基礎となるテンソル乗法を推論することができる。
我々のTN実装は、標準実装のメモリオーバーヘッドをなくしながら、最大4.5倍のKFAC変異を加速し、近似バックプロパゲーションのための新しいハードウェア効率の良いドロップアウトを可能にする。
論文 参考訳(メタデータ) (2023-07-05T13:19:41Z) - On Model Compression for Neural Networks: Framework, Algorithm, and Convergence Guarantee [21.818773423324235]
本稿では,低ランク近似と重み近似の2つのモデル圧縮手法に焦点を当てた。
本稿では,非最適化の新たな視点から,モデル圧縮のための全体論的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-13T02:14:42Z) - Leveraging SO(3)-steerable convolutions for pose-robust semantic segmentation in 3D medical data [2.207533492015563]
球面調和に基づく同変ボクセル畳み込みを用いたセグメンテーションネットワークを新たに提案する。
これらのネットワークは、トレーニング中に見えないデータポーズに対して堅牢であり、トレーニング中にローテーションベースのデータ拡張を必要としない。
MRI脳腫瘍におけるセグメンテーション性能と健常な脳構造セグメンテーション課題について検討した。
論文 参考訳(メタデータ) (2023-03-01T09:27:08Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Low-complexity Approximate Convolutional Neural Networks [1.7368964547487395]
本稿では,学習された畳み込みニューラルネットワーク(ConvNet)の計算複雑性を最小化する手法を提案する。
この考え方は、与えられたConvNetのすべての要素を計算複雑性を極端に削減できる効率的な近似で近似することである。
このような低複雑さ構造は、低消費電力で効率的なハードウェア設計の道を開く。
論文 参考訳(メタデータ) (2022-07-29T21:59:29Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Content-Aware Convolutional Neural Networks [98.97634685964819]
畳み込みニューラルネットワーク(CNN)は、畳み込み層の強力な特徴学習能力によって大きな成功を収めている。
本研究では,スムーズなウィンドウを自動的に検出し,元の大規模カーネルを置き換えるために1x1畳み込みカーネルを適用するContent-aware Convolution (CAC)を提案する。
論文 参考訳(メタデータ) (2021-06-30T03:54:35Z) - DO-Conv: Depthwise Over-parameterized Convolutional Layer [66.46704754669169]
本稿では,各入力チャネルが異なる2次元カーネルに変換されるような,奥行きの畳み込みを付加した畳み込み層の拡張を提案する。
従来の畳み込み層をDO-Conv層に置き換えただけでCNNの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-06-22T06:57:10Z) - XSepConv: Extremely Separated Convolution [60.90871656244126]
極めて分離された畳み込みブロック(XSepConv)を提案する。
空間的に分離可能な畳み込みを奥行きの畳み込みに融合させ、大きなカーネルの計算コストとパラメータサイズの両方を削減する。
XSepConvは、大規模なカーネルサイズを持つバニラ奥行きの畳み込みの効率的な代替として設計されている。
論文 参考訳(メタデータ) (2020-02-27T11:46:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。