論文の概要: SCSC: Spatial Cross-scale Convolution Module to Strengthen both CNNs and
Transformers
- arxiv url: http://arxiv.org/abs/2308.07110v1
- Date: Mon, 14 Aug 2023 12:49:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 13:16:56.180311
- Title: SCSC: Spatial Cross-scale Convolution Module to Strengthen both CNNs and
Transformers
- Title(参考訳): SCSC:CNNとトランスフォーマーの両方を強化する空間的クロススケールコンボリューションモジュール
- Authors: Xijun Wang, Xiaojie Chu, Chunrui Han, Xiangyu Zhang
- Abstract要約: 本稿では,CNNとトランスフォーマーの両方の改善に有効であることを示す,SCSC(Spatial Cross-scale Convolution)というモジュールを提案する。
顔認識タスクでは、FaceResNet with SCSCは2.7%、FLOPは68%、パラメータは79%改善できる。
ImageNetの分類タスクでは、SCSCのSwin TransformerはFLOPを22%減らしてさらにパフォーマンスが向上し、CSCSのResNetも同様の複雑さで5.3%改善できる。
- 参考スコア(独自算出の注目度): 18.073368359464915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a module, Spatial Cross-scale Convolution (SCSC), which
is verified to be effective in improving both CNNs and Transformers. Nowadays,
CNNs and Transformers have been successful in a variety of tasks. Especially
for Transformers, increasing works achieve state-of-the-art performance in the
computer vision community. Therefore, researchers start to explore the
mechanism of those architectures. Large receptive fields, sparse connections,
weight sharing, and dynamic weight have been considered keys to designing
effective base models. However, there are still some issues to be addressed:
large dense kernels and self-attention are inefficient, and large receptive
fields make it hard to capture local features. Inspired by the above analyses
and to solve the mentioned problems, in this paper, we design a general module
taking in these design keys to enhance both CNNs and Transformers. SCSC
introduces an efficient spatial cross-scale encoder and spatial embed module to
capture assorted features in one layer. On the face recognition task,
FaceResNet with SCSC can improve 2.7% with 68% fewer FLOPs and 79% fewer
parameters. On the ImageNet classification task, Swin Transformer with SCSC can
achieve even better performance with 22% fewer FLOPs, and ResNet with CSCS can
improve 5.3% with similar complexity. Furthermore, a traditional network (e.g.,
ResNet) embedded with SCSC can match Swin Transformer's performance.
- Abstract(参考訳): 本稿では,CNNとトランスフォーマーの両方の改善に有効であることを示す,SCSC(Spatial Cross-scale Convolution)というモジュールを提案する。
現在、cnnとトランスフォーマーは様々なタスクで成功を収めている。
特にTransformersでは,コンピュータビジョンコミュニティにおける最先端のパフォーマンスを実現する。
そのため、研究者たちはこれらのアーキテクチャのメカニズムを探求し始めた。
大きな受容場、疎結合、重み共有、動的重み付けは、効果的なベースモデルを設計するための鍵と考えられている。
しかし、まだ対処すべき問題がいくつかある: 大規模な密集したカーネルと自己完結は非効率であり、大きな受容フィールドは局所的な特徴を捉えることが困難である。
本稿では,上記の解析に触発されて,上記の問題を解決するため,cnnとトランスフォーマーの両方を強化するために,これらの設計キーを取り入れた汎用モジュールを設計する。
SCSCは、空間的クロススケールエンコーダと空間埋め込みモジュールを導入し、一つの層に配置された特徴をキャプチャする。
顔認識タスクでは、FaceResNet with SCSCは2.7%、FLOPは68%、パラメータは79%改善できる。
ImageNetの分類タスクでは、SCSCのSwin TransformerはFLOPを22%減らしてさらにパフォーマンスが向上し、CSCSのResNetも同様の複雑さで5.3%改善できる。
さらに、SCSCに埋め込まれた従来のネットワーク(ResNetなど)は、Swin Transformerのパフォーマンスにマッチする。
関連論文リスト
- CTA-Net: A CNN-Transformer Aggregation Network for Improving Multi-Scale Feature Extraction [14.377544481394013]
CTA-NetはCNNとViTを組み合わせて、長距離依存関係をキャプチャするトランスフォーマーと、ローカライズされた特徴を抽出するCNNを備えている。
この統合により、詳細なローカルおよびより広いコンテキスト情報の効率的な処理が可能になる。
10万以上のサンプルを持つ小規模データセットの実験は、CTA-Netが優れたパフォーマンスを実現していることを示している。
論文 参考訳(メタデータ) (2024-10-15T09:27:26Z) - OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - Revisiting Image Deblurring with an Efficient ConvNet [24.703240497171503]
本稿では,大規模な有効受容場(ERF)を特徴とする軽量CNNネットワークを提案する。
我々の鍵となる設計はLaKDと呼ばれる効率的なCNNブロックであり、大きなカーネル深さの畳み込みと空間チャネルの混合構造を備えている。
パラメータが32%少なく、MACが39%少ないデフォーカス/モーションデブロアリングベンチマークデータセット上で、最先端のRestormer上で+0.17dB / +0.43dB PSNRを達成する。
論文 参考訳(メタデータ) (2023-02-04T20:42:46Z) - ParCNetV2: Oversized Kernel with Enhanced Attention [60.141606180434195]
我々はParCNetV2という畳み込みニューラルネットワークアーキテクチャを導入する。
位置認識型円形畳み込み(ParCNet)を拡張し、大きめの畳み込みを施し、分岐ゲートユニットを通して注意を向ける。
提案手法は、CNNとトランスフォーマーをハイブリッド化するニューラルネットワークと同様に、他の純粋な畳み込みニューラルネットワークよりも優れている。
論文 参考訳(メタデータ) (2022-11-14T07:22:55Z) - Optimizing Vision Transformers for Medical Image Segmentation and
Few-Shot Domain Adaptation [11.690799827071606]
我々はCS-Unet(Convolutional Swin-Unet)トランスフォーマーブロックを提案し、パッチ埋め込み、プロジェクション、フィードフォワードネットワーク、サンプリングおよびスキップ接続に関連する設定を最適化する。
CS-Unetはゼロからトレーニングすることができ、各機能プロセスフェーズにおける畳み込みの優位性を継承する。
実験によると、CS-Unetは事前トレーニングなしで、パラメータが少ない2つの医療用CTおよびMRIデータセットに対して、最先端の他のデータセットを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2022-10-14T19:18:52Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - FQ-ViT: Fully Quantized Vision Transformer without Retraining [13.82845665713633]
本稿では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。
完全に量子化された視覚変換器上で、我々は初めて精度の劣化(1%)を達成した。
論文 参考訳(メタデータ) (2021-11-27T06:20:53Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。