論文の概要: InceptionNeXt: When Inception Meets ConvNeXt
- arxiv url: http://arxiv.org/abs/2303.16900v1
- Date: Wed, 29 Mar 2023 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 13:37:58.318767
- Title: InceptionNeXt: When Inception Meets ConvNeXt
- Title(参考訳): InceptionNeXt: インセプションがConvNeXtに出会ったとき
- Authors: Weihao Yu, Pan Zhou, Shuicheng Yan, Xinchao Wang
- Abstract要約: IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持しています。
InceptionNeXtはConvNeX-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
- 参考スコア(独自算出の注目度): 167.61042926444105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the long-range modeling ability of ViTs, large-kernel
convolutions are widely studied and adopted recently to enlarge the receptive
field and improve model performance, like the remarkable work ConvNeXt which
employs 7x7 depthwise convolution. Although such depthwise operator only
consumes a few FLOPs, it largely harms the model efficiency on powerful
computing devices due to the high memory access costs. For example, ConvNeXt-T
has similar FLOPs with ResNet-50 but only achieves 60% throughputs when trained
on A100 GPUs with full precision. Although reducing the kernel size of ConvNeXt
can improve speed, it results in significant performance degradation. It is
still unclear how to speed up large-kernel-based CNN models while preserving
their performance. To tackle this issue, inspired by Inceptions, we propose to
decompose large-kernel depthwise convolution into four parallel branches along
channel dimension, i.e. small square kernel, two orthogonal band kernels, and
an identity mapping. With this new Inception depthwise convolution, we build a
series of networks, namely IncepitonNeXt, which not only enjoy high throughputs
but also maintain competitive performance. For instance, InceptionNeXt-T
achieves 1.6x higher training throughputs than ConvNeX-T, as well as attains
0.2% top-1 accuracy improvement on ImageNet-1K. We anticipate InceptionNeXt can
serve as an economical baseline for future architecture design to reduce carbon
footprint. Code is available at https://github.com/sail-sg/inceptionnext.
- Abstract(参考訳): ViTの長距離モデリング能力にインスパイアされた大規模なカーネルの畳み込みは,近年広く研究され,7x7奥行き畳み込みを用いた注目すべきConvNeXtのような受容場の拡大とモデル性能の向上のために採用されている。
このような深層演算子は数個のFLOPしか消費しないが、メモリアクセスコストが高いため、強力なコンピューティングデバイス上でのモデル効率に大きなダメージを与える。
例えば、ConvNeXt-TはResNet-50と同じようなFLOPを持つが、完全な精度でA100 GPUでトレーニングすると、60%のスループットしか達成できない。
ConvNeXtのカーネルサイズを減らすことで速度が向上するが、性能は大幅に低下する。
性能を保ちながら、大規模なカーネルベースのCNNモデルを高速化する方法はまだ不明である。
この問題に取り組むために, インセプションに触発されて, チャネル次元に沿った4つの平行枝(すなわち, 小さい正方形カーネル, 2つの直交バンドカーネル, および恒等写像)に大カーネルの深さ方向畳み込みを分解する。
この新しいInception Deepwise Convolutionでは、IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持する。
例えば、InceptionNeXt-TはConvNeX-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
InceptionNeXtは、炭素フットプリントを減らすための将来のアーキテクチャ設計のための経済的なベースラインとして機能すると予想する。
コードはhttps://github.com/sail-sg/inceptionnextで入手できる。
関連論文リスト
- Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations [17.41381592056492]
本稿では,現代畳み込みニューラルネットワーク(ConvNets)の設計における大規模畳み込みカーネルのパラダイムを提案する。
複数の小さなカーネルを積み重ねる代わりに、少数の大規模なカーネルを採用することが、優れた設計戦略であることを示す。
我々は,大規模なカーネル・コンバネット向けに構築されたアーキテクチャ設計の体系的原則を提供するUniRepLKNetアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-10T15:43:55Z) - DSNet: A Novel Way to Use Atrous Convolutions in Semantic Segmentation [8.240211805240023]
我々は、現代の畳み込みニューラルネットワーク(CNN)におけるアトラス畳み込みの設計を再考する。
本稿では,モデルアーキテクチャの浅い層にアトラス畳み込みを組み込んだDual-Branch CNNアーキテクチャDSNetを提案する。
私たちのモデルは、ADE20K、Cityscapes、BDDデータセットの正確性とスピードの新たな最先端のトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-06-06T02:51:57Z) - Shift-ConvNets: Small Convolutional Kernel with Large Kernel Effects [8.933264104073832]
小さな畳み込みカーネルと畳み込み演算は、大きなカーネルサイズの閉じた効果を達成することができる。
スパース機構の助けを借りてCNNが長距離依存を捕捉できるようにするシフトワイズ演算子を提案する。
ImageNet-1kでは、シフトワイド強化CNNモデルは最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2024-01-23T13:13:45Z) - More ConvNets in the 2020s: Scaling up Kernels Beyond 51x51 using
Sparsity [103.62784587778037]
最近、いくつかの先進的な畳み込みモデルが、局所的だが大きな注意機構によって動機付けられた大きなカーネルで後退している。
本稿では,51x51カーネルを備えた純粋なCNNアーキテクチャであるSparse Large Kernel Network (SLaK)を提案する。
論文 参考訳(メタデータ) (2022-07-07T23:55:52Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs [148.0476219278875]
現代畳み込みニューラルネットワーク(CNN)における大規模カーネル設計の再検討
本稿では、視覚変換器(ViT)の最近の進歩に触発されて、小さなカーネルのスタックではなく、少数の大きな畳み込みカーネルを使うことが、より強力なパラダイムであることを実証する。
本稿では,カーネルサイズが31x31の純粋なCNNアーキテクチャであるRepLKNetを提案する。
論文 参考訳(メタデータ) (2022-03-13T17:22:44Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - XSepConv: Extremely Separated Convolution [60.90871656244126]
極めて分離された畳み込みブロック(XSepConv)を提案する。
空間的に分離可能な畳み込みを奥行きの畳み込みに融合させ、大きなカーネルの計算コストとパラメータサイズの両方を削減する。
XSepConvは、大規模なカーネルサイズを持つバニラ奥行きの畳み込みの効率的な代替として設計されている。
論文 参考訳(メタデータ) (2020-02-27T11:46:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。