論文の概要: X-volution: On the unification of convolution and self-attention
- arxiv url: http://arxiv.org/abs/2106.02253v2
- Date: Mon, 7 Jun 2021 09:03:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 11:37:13.215026
- Title: X-volution: On the unification of convolution and self-attention
- Title(参考訳): X-volution: 畳み込みと自己意識の統合について
- Authors: Xuanhong Chen and Hang Wang and Bingbing Ni
- Abstract要約: 本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
- 参考スコア(独自算出の注目度): 52.80459687846842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolution and self-attention are acting as two fundamental building blocks
in deep neural networks, where the former extracts local image features in a
linear way while the latter non-locally encodes high-order contextual
relationships. Though essentially complementary to each other, i.e.,
first-/high-order, stat-of-the-art architectures, i.e., CNNs or transformers
lack a principled way to simultaneously apply both operations in a single
computational module, due to their heterogeneous computing pattern and
excessive burden of global dot-product for visual tasks. In this work, we
theoretically derive a global self-attention approximation scheme, which
approximates a self-attention via the convolution operation on transformed
features. Based on the approximated scheme, we establish a multi-branch
elementary module composed of both convolution and self-attention operation,
capable of unifying both local and non-local feature interaction. Importantly,
once trained, this multi-branch module could be conditionally converted into a
single standard convolution operation via structural re-parameterization,
rendering a pure convolution styled operator named X-volution, ready to be
plugged into any modern networks as an atomic operation. Extensive experiments
demonstrate that the proposed X-volution, achieves highly competitive visual
understanding improvements (+1.2% top-1 accuracy on ImageNet classification,
+1.7 box AP and +1.5 mask AP on COCO detection and segmentation).
- Abstract(参考訳): 畳み込みと自己アテンションはディープニューラルネットワークの2つの基本的なビルディングブロックとして機能し、前者は局所的な特徴を線形に抽出し、後者は非局所的に高次の文脈関係を符号化する。
本質的には相互補完的であるが、例えば、CNNやトランスフォーマーは、その不均一な計算パターンと視覚タスクに対するグローバルドット積の過剰な負荷のため、単一の計算モジュールに両方の操作を同時に適用する原則的な方法が欠如している。
本研究では,変換された特徴に対する畳み込み操作による自己注意を近似するグローバル自己注意近似法を理論的に導出する。
近似スキームに基づいて,局所的および非局所的特徴相互作用を統一可能な,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを構築した。
重要なことは、訓練されたこのマルチブランチモジュールは、構造的再パラメータ化によって単一の標準畳み込み操作に条件付き変換することができ、X-畳み込みと呼ばれる純粋な畳み込みスタイルの演算子を、アトミックな操作としてあらゆる現代のネットワークにプラグインする準備ができたことである。
広範な実験により、提案されたx-volutionは高度に競争力のある視覚的理解の改善(imagenet分類における+1.2% top-1精度、+1.7 box ap、coco検出とセグメンテーションにおける+1.5 mask ap)を実現した。
関連論文リスト
- TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic
Token Mixer for Visual Recognition [71.6546914957701]
本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - Slide-Transformer: Hierarchical Vision Transformer with Local
Self-Attention [34.26177289099421]
視覚変換器(ViT)の最近の進歩において、自己注意機構が重要な要素となっている。
本稿では,高効率,柔軟性,一般化性を実現するために共通畳み込み演算を利用する新しいローカルアテンションモジュールを提案する。
我々のモジュールは、効率的かつ柔軟な方法で局所的な注意パラダイムを実現する。
論文 参考訳(メタデータ) (2023-04-09T13:37:59Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - On the Integration of Self-Attention and Convolution [33.899471118470416]
畳み込みと自己意識は表現学習の強力なテクニックである。
本稿では,両者の間には強い基礎的関係が存在することを示す。
これら2つのパラダイムの計算の大部分は、実際には同じ操作で行われていることを示す。
論文 参考訳(メタデータ) (2021-11-29T14:37:05Z) - Involution: Inverting the Inherence of Convolution for Visual
Recognition [72.88582255910835]
本稿では,畳み込みの原理を逆転させることにより,深層ニューラルネットワークの新たな原子操作を提案する。
提案する畳み込み演算子は、視覚認識のための新しい世代のニューラルネットワークを構築するための基本ブロックとして利用することができる。
当社のInvolutionベースのモデルは、ResNet-50を使用した畳み込みベースラインのパフォーマンスを最大1.6%の精度、2.5%と2.4%のバウンディングボックスAP、4.7%は絶対にIoUを意味します。
論文 参考訳(メタデータ) (2021-03-10T18:40:46Z) - Self-grouping Convolutional Neural Networks [30.732298624941738]
本稿では,SG-CNNと呼ばれる自己グループ型畳み込みニューラルネットワークの設計手法を提案する。
各フィルタについて、まず入力チャネルの重要度を評価し、重要度ベクトルを同定する。
得られたデータに依存したセントロイドを用いて、重要でない接続を創り出し、プルーニングの精度損失を暗黙的に最小化する。
論文 参考訳(メタデータ) (2020-09-29T06:24:32Z) - ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。
我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文 参考訳(メタデータ) (2020-09-04T20:41:47Z) - Binarizing MobileNet via Evolution-based Searching [66.94247681870125]
そこで本稿では,MobileNet をバイナライズする際の構築と訓練を容易にするための進化的探索手法を提案する。
ワンショットアーキテクチャ検索フレームワークに着想を得て、グループ畳み込みのアイデアを操り、効率的な1ビット畳み込みニューラルネットワーク(CNN)を設計する。
我々の目標は、グループ畳み込みの最良の候補を探索することで、小さなが効率的なバイナリニューラルアーキテクチャを考案することである。
論文 参考訳(メタデータ) (2020-05-13T13:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。