論文の概要: Run, Don't Walk: Chasing Higher FLOPS for Faster Neural Networks
- arxiv url: http://arxiv.org/abs/2303.03667v2
- Date: Tue, 4 Apr 2023 12:15:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 17:51:45.697191
- Title: Run, Don't Walk: Chasing Higher FLOPS for Faster Neural Networks
- Title(参考訳): 走るな、歩くな、より高速なニューラルネットワークのためのより高いFLOPS
- Authors: Jierun Chen, Shiu-hong Kao, Hao He, Weipeng Zhuo, Song Wen, Chul-Ho
Lee, S.-H. Gary Chan
- Abstract要約: 冗長計算とメモリアクセスを同時に削減し,空間的特徴をより効率的に抽出する新しい部分畳み込み(PConv)を提案する。
当社のPConv上に構築された新しいニューラルネットワークファミリーであるFasterNetも提案しています。
当社の大きなFasterNet-Lは、新興のSwin-Bと同等の8,3.5%の精度で、GPU上での推論スループットは36%高い。
- 参考スコア(独自算出の注目度): 15.519170283930276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To design fast neural networks, many works have been focusing on reducing the
number of floating-point operations (FLOPs). We observe that such reduction in
FLOPs, however, does not necessarily lead to a similar level of reduction in
latency. This mainly stems from inefficiently low floating-point operations per
second (FLOPS). To achieve faster networks, we revisit popular operators and
demonstrate that such low FLOPS is mainly due to frequent memory access of the
operators, especially the depthwise convolution. We hence propose a novel
partial convolution (PConv) that extracts spatial features more efficiently, by
cutting down redundant computation and memory access simultaneously. Building
upon our PConv, we further propose FasterNet, a new family of neural networks,
which attains substantially higher running speed than others on a wide range of
devices, without compromising on accuracy for various vision tasks. For
example, on ImageNet-1k, our tiny FasterNet-T0 is $2.8\times$, $3.3\times$, and
$2.4\times$ faster than MobileViT-XXS on GPU, CPU, and ARM processors,
respectively, while being $2.9\%$ more accurate. Our large FasterNet-L achieves
impressive $83.5\%$ top-1 accuracy, on par with the emerging Swin-B, while
having $36\%$ higher inference throughput on GPU, as well as saving $37\%$
compute time on CPU. Code is available at
\url{https://github.com/JierunChen/FasterNet}.
- Abstract(参考訳): 高速ニューラルネットワークを設計するために、多くの研究が浮動小数点演算(FLOP)の削減に重点を置いている。
しかし、このようなFLOPの削減は、必ずしも同様のレイテンシの低下につながるとは限らない。
これは主に非効率に低い浮動小数点演算(flops)に由来する。
高速なネットワークを実現するために、我々は人気のある演算子を再検討し、そのような低いFLOPSは演算子のメモリアクセス、特に奥行きの畳み込みによるものであることを示す。
そこで我々は,冗長計算とメモリアクセスを同時に削減することにより,空間的特徴をより効率的に抽出する新しい部分畳み込み(pconv)を提案する。
PConv上に構築したFasterNetは,さまざまなビジョンタスクの精度を損なうことなく,さまざまなデバイス上での動作速度を大幅に向上する,ニューラルネットワークの新たなファミリーである。
例えば、ImageNet-1kでは、私たちの小さなFasterNet-T0は、2.8\times$、3.3\times$、2.4\times$は、GPU、CPU、ARMプロセッサのMobileViT-XXSよりも高速で、2.9\%$である。
当社の大きなFasterNet-Lは、新興のSwin-Bと同等の83.5\%$ top-1の精度で、GPUでは36\%$高い推論スループットを持ち、CPUでは37\%$計算時間を節約しています。
コードは \url{https://github.com/JierunChen/FasterNet} で入手できる。
関連論文リスト
- End-to-End Neural Network Compression via $\frac{\ell_1}{\ell_2}$
Regularized Latency Surrogates [20.31383698391339]
我々のアルゴリズムは多用途であり、プルーニング、低ランク因数分解、量子化など多くの一般的な圧縮手法で利用することができる。
高速で、シングルモデルトレーニングとほぼ同じ時間で実行される。
論文 参考訳(メタデータ) (2023-06-09T09:57:17Z) - GhostNetV2: Enhance Cheap Operation with Long-Range Attention [59.65543143580889]
ハードウェアフレンドリーなアテンション機構(DFCアテンション)を提案し,モバイルアプリケーション用の新しいGhostNetV2アーキテクチャを提案する。
提案したDFCアテンションは、ハードウェア上で高速に動作できるだけでなく、長距離画素間の依存を捉えることができる完全接続層に基づいて構築されている。
さらに,従来のGhostNetのボトルネックを再考し,DFCに着目した安価な操作による機能拡張を提案する。
論文 参考訳(メタデータ) (2022-11-23T12:16:59Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - GhostShiftAddNet: More Features from Energy-Efficient Operations [1.2891210250935146]
ディープ畳み込みニューラルネットワーク(Deep Convolutional Neural Network, CNN)は、計算とメモリ集約である。
本稿では,ハードウェア効率のよいディープネットワークを実現するGhostShiftAddNetを提案する。
我々は新しいボトルネックブロックであるGhostSAを導入し、ブロック内のすべての乗算を安価な演算に変換する。
論文 参考訳(メタデータ) (2021-09-20T12:50:42Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Efficient Neural Network Deployment for Microcontroller [0.0]
本稿では,マイクロコントローラのための畳み込みニューラルネットワークの展開を探索し,一般化する。
メモリの節約と性能は、ARM Cortex-M CPU用に開発されたCMSIS-NNフレームワークと比較される。
最終的な目的は、トレーニングされたネットワーク重みを持つPyTorchモデルを消費するツールを開発することであり、低メモリ(キロバイトレベル)と限られた計算能力を持つマイクロコントローラのためにC/C++で最適化された推論エンジンとなる。
論文 参考訳(メタデータ) (2020-07-02T19:21:05Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z) - FBNetV2: Differentiable Neural Architecture Search for Spatial and
Channel Dimensions [70.59851564292828]
微分可能なニューラルネットワーク探索(DNAS)は、最先端で効率的なニューラルネットワークの設計において大きな成功を収めている。
メモリと計算効率のよいDNAS変異体DMaskingNASを提案する。
このアルゴリズムは、検索スペースを従来のDNASよりも最大1014倍に拡張する。
論文 参考訳(メタデータ) (2020-04-12T08:52:15Z) - Performance Aware Convolutional Neural Network Channel Pruning for
Embedded GPUs [6.035819238203187]
コンボリューションチャネルの数を減少させ,初期サイズの12%を刈り取ることで,性能を損なう場合がある。
また,cuDNNで3倍,Arm Compute LibraryとTVMで10倍以上の性能向上を実現した。
論文 参考訳(メタデータ) (2020-02-20T12:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。