論文の概要: $ShiftwiseConv:$ Small Convolutional Kernel with Large Kernel Effect
- arxiv url: http://arxiv.org/abs/2401.12736v2
- Date: Thu, 13 Mar 2025 09:35:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 21:36:22.223363
- Title: $ShiftwiseConv:$ Small Convolutional Kernel with Large Kernel Effect
- Title(参考訳): $ShiftwiseConv:$大きなカーネル効果を持つ小さな畳み込みカーネル
- Authors: Dachong Li, Li Li, Zhuangzhuang Chen, Jianqiang Li,
- Abstract要約: 大型カーネルは、様々な視覚タスクにおけるトランスフォーマーアーキテクチャよりも、標準畳み込みニューラルネットワーク(CNN)が優れている。
カーネルサイズの増加を念頭に設計した最近の研究では、性能の低下や停滞が示されている。
本稿では,大規模カーネルの重要な隠蔽因子を,ある粒度で特徴を抽出し,複数の経路で特徴を融合させるという,2つの分離された構成要素としてまとめることができることを示す。
- 参考スコア(独自算出の注目度): 8.177438505492548
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large kernels make standard convolutional neural networks (CNNs) great again over transformer architectures in various vision tasks. Nonetheless, recent studies meticulously designed around increasing kernel size have shown diminishing returns or stagnation in performance. Thus, the hidden factors of large kernel convolution that affect model performance remain unexplored. In this paper, we reveal that the key hidden factors of large kernels can be summarized as two separate components: extracting features at a certain granularity and fusing features by multiple pathways. To this end, we leverage the multi-path long-distance sparse dependency relationship to enhance feature utilization via the proposed Shiftwise (SW) convolution operator with a pure CNN architecture. In a wide range of vision tasks such as classification, segmentation, and detection, SW surpasses state-of-the-art transformers and CNN architectures, including SLaK and UniRepLKNet. More importantly, our experiments demonstrate that $3 \times 3$ convolutions can replace large convolutions in existing large kernel CNNs to achieve comparable effects, which may inspire follow-up works. Code and all the models at https://github.com/lidc54/shift-wiseConv.
- Abstract(参考訳): 大型カーネルは、様々な視覚タスクにおけるトランスフォーマーアーキテクチャよりも、標準畳み込みニューラルネットワーク(CNN)が優れている。
しかしながら、カーネルサイズの増加を念頭に設計した最近の研究では、性能の低下や停滞が示されている。
したがって、モデル性能に影響を与える大きなカーネルの畳み込みの隠れた要因は未解明のままである。
本稿では,大カーネルの重要な隠蔽因子を,ある粒度で特徴を抽出する,複数の経路で特徴を融合する,という2つの分離された構成要素として要約できることを示す。
この目的のために,提案したShiftwise(SW)畳み込み演算子と純粋なCNNアーキテクチャを用いて,マルチパス長距離スパース依存性関係を利用し,機能利用の促進を図る。
分類、セグメンテーション、検出などの幅広いビジョンタスクにおいて、SWはSLaKやUniRepLKNetを含む最先端のトランスフォーマーやCNNアーキテクチャを上回る。
さらに重要なことは,3ドル3セントの畳み込みは,既存の大規模カーネルCNNの大規模な畳み込みを置き換えることで,同等の効果が得られ,フォローアップ作業に刺激を与える可能性がある,ということです。
コードとすべてのモデルはhttps://github.com/lidc54/shift-wiseConv.orgにある。
関連論文リスト
- D-Net: Dynamic Large Kernel with Dynamic Feature Fusion for Volumetric Medical Image Segmentation [7.894630378784007]
動的大カーネル(DLK)および動的特徴融合(DFF)モジュールを提案する。
D-Netは、マルチスケールの大規模な受容場を効果的に利用し、グローバルな文脈情報を適応的に活用することができる。
論文 参考訳(メタデータ) (2024-03-15T20:49:43Z) - PeLK: Parameter-efficient Large Kernel ConvNets with Peripheral Convolution [35.1473732030645]
人間の視覚に触発されて、高密度グリッド畳み込みの90%以上のパラメータ数を効率的に削減する、ヒトのような周辺畳み込みを提案する。
末梢のコンボリューションは人間と非常によく似ており,O(K2) から O(logK) へのコンボリューションの複雑度を低下させる。
初めて、CNNのカーネルサイズを前例のない101x101にスケールアップし、一貫した改善を実証しました。
論文 参考訳(メタデータ) (2024-03-12T12:19:05Z) - InceptionNeXt: When Inception Meets ConvNeXt [167.61042926444105]
IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持しています。
InceptionNeXtはConvNeX-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-03-29T17:59:58Z) - ParCNetV2: Oversized Kernel with Enhanced Attention [60.141606180434195]
我々はParCNetV2という畳み込みニューラルネットワークアーキテクチャを導入する。
位置認識型円形畳み込み(ParCNet)を拡張し、大きめの畳み込みを施し、分岐ゲートユニットを通して注意を向ける。
提案手法は、CNNとトランスフォーマーをハイブリッド化するニューラルネットワークと同様に、他の純粋な畳み込みニューラルネットワークよりも優れている。
論文 参考訳(メタデータ) (2022-11-14T07:22:55Z) - InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions [95.94629864981091]
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。
提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-11-10T18:59:04Z) - Salient Object Detection via Dynamic Scale Routing [62.26677215668959]
本稿では,「動的」なスケールルーティング(新しいアイデアとして)について紹介する。
結果として、既存の機能のバックボーンに直接適合するジェネリックなプラグインが生まれます。
DPConvベースのエンコーダを最適に適合させるために,自己適応型双方向デコーダの設計を提案する。
論文 参考訳(メタデータ) (2022-10-25T08:01:27Z) - Omni-Dimensional Dynamic Convolution [25.78940854339179]
各畳み込み層で単一の静的畳み込みカーネルを学習することは、現代の畳み込みニューラルネットワーク(CNN)の共通の訓練パラダイムである。
動的畳み込みの最近の研究は、入力依存の注意を重み付けした$n$の畳み込みカーネルの線形結合を学習することで、軽量CNNの精度を大幅に向上させることができることを示している。
より一般化されているがエレガントな動的畳み込み設計であるOmni-dimensional Dynamic Convolution (ODConv)を提案する。
論文 参考訳(メタデータ) (2022-09-16T14:05:38Z) - More ConvNets in the 2020s: Scaling up Kernels Beyond 51x51 using
Sparsity [103.62784587778037]
最近、いくつかの先進的な畳み込みモデルが、局所的だが大きな注意機構によって動機付けられた大きなカーネルで後退している。
本稿では,51x51カーネルを備えた純粋なCNNアーキテクチャであるSparse Large Kernel Network (SLaK)を提案する。
論文 参考訳(メタデータ) (2022-07-07T23:55:52Z) - Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs [148.0476219278875]
現代畳み込みニューラルネットワーク(CNN)における大規模カーネル設計の再検討
本稿では、視覚変換器(ViT)の最近の進歩に触発されて、小さなカーネルのスタックではなく、少数の大きな畳み込みカーネルを使うことが、より強力なパラダイムであることを実証する。
本稿では,カーネルサイズが31x31の純粋なCNNアーキテクチャであるRepLKNetを提案する。
論文 参考訳(メタデータ) (2022-03-13T17:22:44Z) - Hyper-Convolutions via Implicit Kernels for Medical Imaging [18.98078260974008]
本稿では、空間座標を用いて畳み込みカーネルを暗黙的に符号化する新しいビルディングブロックであるthithyper-convolutionを提案する。
実験では、通常の畳み込みをハイパー畳み込みに置き換えることで、少ないパラメータで性能が向上し、ノイズに対する堅牢性が向上することを示した。
論文 参考訳(メタデータ) (2022-02-06T03:56:19Z) - Content-Aware Convolutional Neural Networks [98.97634685964819]
畳み込みニューラルネットワーク(CNN)は、畳み込み層の強力な特徴学習能力によって大きな成功を収めている。
本研究では,スムーズなウィンドウを自動的に検出し,元の大規模カーネルを置き換えるために1x1畳み込みカーネルを適用するContent-aware Convolution (CAC)を提案する。
論文 参考訳(メタデータ) (2021-06-30T03:54:35Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - PSConv: Squeezing Feature Pyramid into One Compact Poly-Scale
Convolutional Layer [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、しばしばスケールに敏感である。
我々は、この後悔を、より細かい粒度でマルチスケールの機能を利用して埋める。
提案した畳み込み演算は、PSConv(Poly-Scale Convolution)と呼ばれ、拡張率のスペクトルを混合する。
論文 参考訳(メタデータ) (2020-07-13T05:14:11Z) - XSepConv: Extremely Separated Convolution [60.90871656244126]
極めて分離された畳み込みブロック(XSepConv)を提案する。
空間的に分離可能な畳み込みを奥行きの畳み込みに融合させ、大きなカーネルの計算コストとパラメータサイズの両方を削減する。
XSepConvは、大規模なカーネルサイズを持つバニラ奥行きの畳み込みの効率的な代替として設計されている。
論文 参考訳(メタデータ) (2020-02-27T11:46:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。