論文の概要: InceptionNeXt: When Inception Meets ConvNeXt
- arxiv url: http://arxiv.org/abs/2303.16900v1
- Date: Wed, 29 Mar 2023 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 13:37:58.318767
- Title: InceptionNeXt: When Inception Meets ConvNeXt
- Title(参考訳): InceptionNeXt: インセプションがConvNeXtに出会ったとき
- Authors: Weihao Yu, Pan Zhou, Shuicheng Yan, Xinchao Wang
- Abstract要約: IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持しています。
InceptionNeXtはConvNeX-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
- 参考スコア(独自算出の注目度): 167.61042926444105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the long-range modeling ability of ViTs, large-kernel
convolutions are widely studied and adopted recently to enlarge the receptive
field and improve model performance, like the remarkable work ConvNeXt which
employs 7x7 depthwise convolution. Although such depthwise operator only
consumes a few FLOPs, it largely harms the model efficiency on powerful
computing devices due to the high memory access costs. For example, ConvNeXt-T
has similar FLOPs with ResNet-50 but only achieves 60% throughputs when trained
on A100 GPUs with full precision. Although reducing the kernel size of ConvNeXt
can improve speed, it results in significant performance degradation. It is
still unclear how to speed up large-kernel-based CNN models while preserving
their performance. To tackle this issue, inspired by Inceptions, we propose to
decompose large-kernel depthwise convolution into four parallel branches along
channel dimension, i.e. small square kernel, two orthogonal band kernels, and
an identity mapping. With this new Inception depthwise convolution, we build a
series of networks, namely IncepitonNeXt, which not only enjoy high throughputs
but also maintain competitive performance. For instance, InceptionNeXt-T
achieves 1.6x higher training throughputs than ConvNeX-T, as well as attains
0.2% top-1 accuracy improvement on ImageNet-1K. We anticipate InceptionNeXt can
serve as an economical baseline for future architecture design to reduce carbon
footprint. Code is available at https://github.com/sail-sg/inceptionnext.
- Abstract(参考訳): ViTの長距離モデリング能力にインスパイアされた大規模なカーネルの畳み込みは,近年広く研究され,7x7奥行き畳み込みを用いた注目すべきConvNeXtのような受容場の拡大とモデル性能の向上のために採用されている。
このような深層演算子は数個のFLOPしか消費しないが、メモリアクセスコストが高いため、強力なコンピューティングデバイス上でのモデル効率に大きなダメージを与える。
例えば、ConvNeXt-TはResNet-50と同じようなFLOPを持つが、完全な精度でA100 GPUでトレーニングすると、60%のスループットしか達成できない。
ConvNeXtのカーネルサイズを減らすことで速度が向上するが、性能は大幅に低下する。
性能を保ちながら、大規模なカーネルベースのCNNモデルを高速化する方法はまだ不明である。
この問題に取り組むために, インセプションに触発されて, チャネル次元に沿った4つの平行枝(すなわち, 小さい正方形カーネル, 2つの直交バンドカーネル, および恒等写像)に大カーネルの深さ方向畳み込みを分解する。
この新しいInception Deepwise Convolutionでは、IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持する。
例えば、InceptionNeXt-TはConvNeX-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
InceptionNeXtは、炭素フットプリントを減らすための将来のアーキテクチャ設計のための経済的なベースラインとして機能すると予想する。
コードはhttps://github.com/sail-sg/inceptionnextで入手できる。
関連論文リスト
- DSNet: A Novel Way to Use Atrous Convolutions in Semantic Segmentation [8.240211805240023]
我々は、現代の畳み込みニューラルネットワーク(CNN)におけるアトラス畳み込みの設計を再考する。
本稿では,モデルアーキテクチャの浅い層にアトラス畳み込みを組み込んだDual-Branch CNNアーキテクチャDSNetを提案する。
私たちのモデルは、ADE20K、Cityscapes、BDDデータセットの正確性とスピードの新たな最先端のトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-06-06T02:51:57Z) - PeLK: Parameter-efficient Large Kernel ConvNets with Peripheral Convolution [35.1473732030645]
人間の視覚に触発されて、高密度グリッド畳み込みの90%以上のパラメータ数を効率的に削減する、ヒトのような周辺畳み込みを提案する。
末梢のコンボリューションは人間と非常によく似ており,O(K2) から O(logK) へのコンボリューションの複雑度を低下させる。
初めて、CNNのカーネルサイズを前例のない101x101にスケールアップし、一貫した改善を実証しました。
論文 参考訳(メタデータ) (2024-03-12T12:19:05Z) - Shift-ConvNets: Small Convolutional Kernel with Large Kernel Effects [8.933264104073832]
小さな畳み込みカーネルと畳み込み演算は、大きなカーネルサイズの閉じた効果を達成することができる。
スパース機構の助けを借りてCNNが長距離依存を捕捉できるようにするシフトワイズ演算子を提案する。
ImageNet-1kでは、シフトワイド強化CNNモデルは最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2024-01-23T13:13:45Z) - More ConvNets in the 2020s: Scaling up Kernels Beyond 51x51 using
Sparsity [103.62784587778037]
最近、いくつかの先進的な畳み込みモデルが、局所的だが大きな注意機構によって動機付けられた大きなカーネルで後退している。
本稿では,51x51カーネルを備えた純粋なCNNアーキテクチャであるSparse Large Kernel Network (SLaK)を提案する。
論文 参考訳(メタデータ) (2022-07-07T23:55:52Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs [148.0476219278875]
現代畳み込みニューラルネットワーク(CNN)における大規模カーネル設計の再検討
本稿では、視覚変換器(ViT)の最近の進歩に触発されて、小さなカーネルのスタックではなく、少数の大きな畳み込みカーネルを使うことが、より強力なパラダイムであることを実証する。
本稿では,カーネルサイズが31x31の純粋なCNNアーキテクチャであるRepLKNetを提案する。
論文 参考訳(メタデータ) (2022-03-13T17:22:44Z) - Phantom: A High-Performance Computational Core for Sparse Convolutional
Neural Networks [3.198144010381572]
スパース畳み込みニューラルネットワーク(CNN)はここ数年で大きな注目を集めている。
モデルのサイズや計算を、密度の高いモデルに比べて大幅に削減することができる。
最近提案されたSCNN、Eyeriss v2、SparTenのようなスパースアクセラレーターは、パフォーマンス向上のために、重みとアクティベーションの両方の間隔という、両側または完全な間隔を積極的に活用している。
これらのアクセラレーターは非効率なマイクロアーキテクチャを持ち、パフォーマンスを制限し、非ユニットストライドの畳み込みと完全に接続された層をサポートしないか、または苦しむかのいずれかである。
論文 参考訳(メタデータ) (2021-11-09T08:43:03Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - XSepConv: Extremely Separated Convolution [60.90871656244126]
極めて分離された畳み込みブロック(XSepConv)を提案する。
空間的に分離可能な畳み込みを奥行きの畳み込みに融合させ、大きなカーネルの計算コストとパラメータサイズの両方を削減する。
XSepConvは、大規模なカーネルサイズを持つバニラ奥行きの畳み込みの効率的な代替として設計されている。
論文 参考訳(メタデータ) (2020-02-27T11:46:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。