論文の概要: ParCNetV2: Oversized Kernel with Enhanced Attention
- arxiv url: http://arxiv.org/abs/2211.07157v1
- Date: Mon, 14 Nov 2022 07:22:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 18:33:37.772794
- Title: ParCNetV2: Oversized Kernel with Enhanced Attention
- Title(参考訳): ParCNetV2: 注意力を強化した大容量カーネル
- Authors: Ruihan Xu, Haokui Zhang, Wenze Hu, Shiliang Zhang, Xiaoyu Wang
- Abstract要約: 我々はParCNetV2という畳み込みニューラルネットワークアーキテクチャを導入する。
位置認識型円形畳み込み(ParCNet)を拡張し、大きめの畳み込みを施し、分岐ゲートユニットを通して注意を向ける。
提案手法は、CNNとトランスフォーマーをハイブリッド化するニューラルネットワークと同様に、他の純粋な畳み込みニューラルネットワークよりも優れている。
- 参考スコア(独自算出の注目度): 60.141606180434195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have achieved tremendous success in various computer vision
tasks. By borrowing design concepts from transformers, many studies
revolutionized CNNs and showed remarkable results. This paper falls in this
line of studies. More specifically, we introduce a convolutional neural network
architecture named ParCNetV2, which extends position-aware circular convolution
(ParCNet) with oversized convolutions and strengthens attention through
bifurcate gate units. The oversized convolution utilizes a kernel with
$2\times$ the input size to model long-range dependencies through a global
receptive field. Simultaneously, it achieves implicit positional encoding by
removing the shift-invariant property from convolutional kernels, i.e., the
effective kernels at different spatial locations are different when the kernel
size is twice as large as the input size. The bifurcate gate unit implements an
attention mechanism similar to self-attention in transformers. It splits the
input into two branches, one serves as feature transformation while the other
serves as attention weights. The attention is applied through element-wise
multiplication of the two branches. Besides, we introduce a unified
local-global convolution block to unify the design of the early and late stage
convolutional blocks. Extensive experiments demonstrate that our method
outperforms other pure convolutional neural networks as well as neural networks
hybridizing CNNs and transformers.
- Abstract(参考訳): トランスフォーマーは様々なコンピュータビジョンタスクで大きな成功を収めた。
トランスフォーマーの設計概念を借用することで、多くの研究がcnnに革命をもたらし、驚くべき結果をもたらした。
この論文は、この一連の研究に当てはまる。
より具体的には、畳み込みニューラルネットワークアーキテクチャparcnetv2を導入する。これは、過剰な畳み込みを伴う位置認識円畳み込み(parcnet)を拡張し、分岐ゲートユニットを介して注意を強化する。
オーバーサイズの畳み込みは、2\times$の入力サイズを持つカーネルを使用して、グローバルレセプティブフィールドを介して長距離依存関係をモデル化する。
同時に、畳み込みカーネルからシフト不変性を取り除くことにより暗黙的位置符号化を実現する。すなわち、異なる空間位置における有効カーネルは、カーネルサイズが入力サイズの2倍である場合に異なる。
分岐ゲートユニットは、変圧器の自己着脱に類似した注意機構を実装している。
入力を2つのブランチに分割し、1つは機能変換、もう1つは注意重みとして機能する。
注意は2つの枝の要素ワイド乗算を通じて適用される。
さらに,初期および後期の畳み込みブロックの設計を統一するために,局所的グローバル畳み込みブロックを導入する。
広範な実験により,本手法がcnnとトランスフォーマーをハイブリッド化したニューラルネットワークと同様に,他の純粋畳み込みニューラルネットワークよりも優れていることが証明された。
関連論文リスト
- Shift-ConvNets: Small Convolutional Kernel with Large Kernel Effects [8.933264104073832]
小さな畳み込みカーネルと畳み込み演算は、大きなカーネルサイズの閉じた効果を達成することができる。
スパース機構の助けを借りてCNNが長距離依存を捕捉できるようにするシフトワイズ演算子を提案する。
ImageNet-1kでは、シフトワイド強化CNNモデルは最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2024-01-23T13:13:45Z) - ConvFormer: Plug-and-Play CNN-Style Transformers for Improving Medical
Image Segmentation [10.727162449071155]
我々はCNNスタイルのトランスフォーマー(ConvFormer)を構築し、より注意収束を促進し、セグメンテーション性能を向上させる。
位置埋め込みとトークン化とは対照的に、ConvFormerは2D畳み込みと最大プーリングを採用して位置情報の保存と特徴サイズの縮小を実現している。
論文 参考訳(メタデータ) (2023-09-09T02:18:17Z) - Omni-Dimensional Dynamic Convolution [25.78940854339179]
各畳み込み層で単一の静的畳み込みカーネルを学習することは、現代の畳み込みニューラルネットワーク(CNN)の共通の訓練パラダイムである。
動的畳み込みの最近の研究は、入力依存の注意を重み付けした$n$の畳み込みカーネルの線形結合を学習することで、軽量CNNの精度を大幅に向上させることができることを示している。
より一般化されているがエレガントな動的畳み込み設計であるOmni-dimensional Dynamic Convolution (ODConv)を提案する。
論文 参考訳(メタデータ) (2022-09-16T14:05:38Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。
最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。
この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。
本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文 参考訳(メタデータ) (2021-07-10T02:34:55Z) - X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文 参考訳(メタデータ) (2021-06-04T04:32:02Z) - Hyper-Convolution Networks for Biomedical Image Segmentation [22.902923145462008]
畳み込みカーネルのサイズは、畳み込みニューラルネットワーク(CNN)の表現性と学習可能なパラメータの数の両方を決定する。
本稿では,カーネル座標の関数としてコンボリューションカーネルを暗黙的に表現する,強力なビルディングブロックであるハイパーコンボリューションを提案する。
正規の畳み込みを超畳み込みに置き換えることで、より効率的なアーキテクチャが実現され、精度が向上することを示した。
論文 参考訳(メタデータ) (2021-05-21T20:31:08Z) - LocalViT: Bringing Locality to Vision Transformers [132.42018183859483]
線、エッジ、形状、さらにはオブジェクトなどの構造に関連するため、画像には局所性が不可欠です。
フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。
この一見シンプルなソリューションは、フィードフォワードネットワークと反転残留ブロックの比較に触発されます。
論文 参考訳(メタデータ) (2021-04-12T17:59:22Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。