Fugu-MT 論文翻訳(概要): Reduce Computational Complexity for Convolutional Layers by Skipping Zeros

論文の概要: Reduce Computational Complexity for Convolutional Layers by Skipping Zeros

arxiv url: http://arxiv.org/abs/2306.15951v4
Date: Mon, 26 Aug 2024 03:09:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-28 01:17:09.278242
Title: Reduce Computational Complexity for Convolutional Layers by Skipping Zeros
Title（参考訳）: ゼロのスキーピングによる畳み込み層の計算複雑性の低減
Authors: Zhiyi Zhang, Pengfei Zhang, Zhuopin Xu, Qi Wang,
Abstract要約: 本稿では,畳み込みニューラルネットワークの効率的なアルゴリズムを提案する。 C-K-SアルゴリズムにはGPUの効率的な実装が伴っている。実験により、C-K-Sは速度と収束の点で優れた性能を示すことが示された。
参考スコア（独自算出の注目度）: 9.833821501774596
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Convolutional neural networks necessitate good algorithms to reduce complexity, and sufficient utilization of parallel processors for acceleration. Within convolutional layers, there are three types of operators: convolution used in forward propagation, deconvolution and dilated-convolution utilized in backward propagation. During the execution of these operators, zeros are typically added to tensors, leading to redundant calculations and unnecessary strain on hardware. To circumvent these inefficiencies, we propose the C-K-S algorithm, accompanied by efficient GPU implementations. C-K-S trims filters to exclude zero-padding. For deconvolution and dilated-convolution, C-K-S transforms sparse tensors into dense tensors, and standardizes the local computational rules to simplify the hardware control. The experimental results demonstrate that C-K-S offers good performance in terms of speed and convergence, surpassing the capabilities of PyTorch and cuDNN in certain scenarios.
Abstract（参考訳）: 畳み込みニューラルネットワークは、複雑性を減らし、アクセラレーションに並列プロセッサを十分に活用するために優れたアルゴリズムを必要とする。畳み込み層には、前方伝播に使用される畳み込み、後方伝播に使用される縮み込み畳み込みと拡張畳み込みの3種類がある。これらの演算子の実行中、0は典型的にはテンソルに追加され、冗長な計算とハードウェアの不要な歪みにつながる。これらの非効率を回避するために,効率的なGPU実装を伴うC-K-Sアルゴリズムを提案する。 C-K-S はゼロパディングを除外するためにフィルタをトリムする。デコンボリューションと拡張畳み込みでは、C-K-Sはスパーステンソルを高密度テンソルに変換し、局所的な計算規則を標準化してハードウェア制御を単純化する。実験により,C-K-SはPyTorchとcuDNNの能力を上回る速度と収束性で優れた性能を示すことが示された。

関連論文リスト

Tensor Decomposition Networks for Fast Machine Learning Interatomic Potential Computations [63.945006006152035]
テンソル分解ネットワーク(TDN)は、計算処理の劇的な高速化と競合する性能を実現する。 1億5500万のDFT計算スナップショットを含む分子緩和データセットPubChemQCRのTDNを評価した。
論文参考訳（メタデータ） (2025-07-01T18:46:27Z)
TC-GS: A Faster Gaussian Splatting Module Utilizing Tensor Cores [9.744829716477627]
本稿では3DGSのコア(TCU)適用性を拡張するアルゴリズム非依存のユニバーサルモジュールであるTC-GSを提案する。鍵となる革新は、αを行列乗法にマッピングすることであり、既存の3DGS実装では、そうでなければアイドルTCUを完全に活用している。
論文参考訳（メタデータ） (2025-05-30T16:58:18Z)
Flexible Coded Distributed Convolution Computing for Enhanced Fault Tolerance and Numerical Stability in Distributed CNNs [26.347141131107172]
本稿では,Flexible Coded Distributed Convolution Computingフレームワークを紹介する。分散CNNの耐障害性と数値安定性を向上させる。実験的な結果は、計算効率、耐障害性、スケーラビリティにおけるフレームワークの有効性を検証する。
論文参考訳（メタデータ） (2024-11-03T14:05:29Z)
Kolmogorov-Arnold Transformer [72.88137795439407]
Kolmogorov-Arnold Transformer(KAT)は,階層をKAN(Kolmogorov-Arnold Network)層に置き換える新しいアーキテクチャである。 C1)基本関数,(C2)非効率,(C3)重みの3つの主要な課題を特定する。これらの設計により、KATは従来のトランスフォーマーよりも優れている。
論文参考訳（メタデータ） (2024-09-16T17:54:51Z)
Convolutions and More as Einsum: A Tensor Network Perspective with Advances for Second-Order Methods [2.8645507575980074]
我々はそれらをテンソルネットワーク(TN)として見ることで畳み込みを単純化する TN はダイアグラムを描画し、微分のような関数変換を実行するようにそれらを操作し、それらを固有値で効率的に評価することで、基礎となるテンソル乗法を推論することができる。我々のTN実装は、標準実装のメモリオーバーヘッドをなくしながら、最大4.5倍のKFAC変異を加速し、近似バックプロパゲーションのための新しいハードウェア効率の良いドロップアウトを可能にする。
論文参考訳（メタデータ） (2023-07-05T13:19:41Z)
On Model Compression for Neural Networks: Framework, Algorithm, and Convergence Guarantee [21.818773423324235]
本稿では,低ランク近似と重み近似の2つのモデル圧縮手法に焦点を当てた。本稿では,非最適化の新たな視点から,モデル圧縮のための全体論的なフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-13T02:14:42Z)
Leveraging SO(3)-steerable convolutions for pose-robust semantic segmentation in 3D medical data [2.207533492015563]
球面調和に基づく同変ボクセル畳み込みを用いたセグメンテーションネットワークを新たに提案する。これらのネットワークは、トレーニング中に見えないデータポーズに対して堅牢であり、トレーニング中にローテーションベースのデータ拡張を必要としない。 MRI脳腫瘍におけるセグメンテーション性能と健常な脳構造セグメンテーション課題について検討した。
論文参考訳（メタデータ） (2023-03-01T09:27:08Z)
Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。 RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文参考訳（メタデータ） (2022-10-21T15:56:13Z)
Low-complexity Approximate Convolutional Neural Networks [1.7368964547487395]
本稿では,学習された畳み込みニューラルネットワーク(ConvNet)の計算複雑性を最小化する手法を提案する。この考え方は、与えられたConvNetのすべての要素を計算複雑性を極端に削減できる効率的な近似で近似することである。このような低複雑さ構造は、低消費電力で効率的なハードウェア設計の道を開く。
論文参考訳（メタデータ） (2022-07-29T21:59:29Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
Content-Aware Convolutional Neural Networks [98.97634685964819]
畳み込みニューラルネットワーク(CNN)は、畳み込み層の強力な特徴学習能力によって大きな成功を収めている。本研究では,スムーズなウィンドウを自動的に検出し,元の大規模カーネルを置き換えるために1x1畳み込みカーネルを適用するContent-aware Convolution (CAC)を提案する。
論文参考訳（メタデータ） (2021-06-30T03:54:35Z)
DO-Conv: Depthwise Over-parameterized Convolutional Layer [66.46704754669169]
本稿では,各入力チャネルが異なる2次元カーネルに変換されるような,奥行きの畳み込みを付加した畳み込み層の拡張を提案する。従来の畳み込み層をDO-Conv層に置き換えただけでCNNの性能が向上することを示す。
論文参考訳（メタデータ） (2020-06-22T06:57:10Z)
XSepConv: Extremely Separated Convolution [60.90871656244126]
極めて分離された畳み込みブロック(XSepConv)を提案する。空間的に分離可能な畳み込みを奥行きの畳み込みに融合させ、大きなカーネルの計算コストとパラメータサイズの両方を削減する。 XSepConvは、大規模なカーネルサイズを持つバニラ奥行きの畳み込みの効率的な代替として設計されている。
論文参考訳（メタデータ） (2020-02-27T11:46:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。