論文の概要: Conformer: Local Features Coupling Global Representations for Visual
Recognition
- arxiv url: http://arxiv.org/abs/2105.03889v1
- Date: Sun, 9 May 2021 10:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 08:08:28.193990
- Title: Conformer: Local Features Coupling Global Representations for Visual
Recognition
- Title(参考訳): Conformer: 視覚認識のためのグローバル表現を結合するローカル機能
- Authors: Zhiliang Peng, Wei Huang, Shanzhi Gu, Lingxi Xie, Yaowei Wang, Jianbin
Jiao, Qixiang Ye
- Abstract要約: 本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
- 参考スコア(独自算出の注目度): 72.9550481476101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Within Convolutional Neural Network (CNN), the convolution operations are
good at extracting local features but experience difficulty to capture global
representations. Within visual transformer, the cascaded self-attention modules
can capture long-distance feature dependencies but unfortunately deteriorate
local feature details. In this paper, we propose a hybrid network structure,
termed Conformer, to take advantage of convolutional operations and
self-attention mechanisms for enhanced representation learning. Conformer roots
in the Feature Coupling Unit (FCU), which fuses local features and global
representations under different resolutions in an interactive fashion.
Conformer adopts a concurrent structure so that local features and global
representations are retained to the maximum extent. Experiments show that
Conformer, under the comparable parameter complexity, outperforms the visual
transformer (DeiT-B) by 2.3% on ImageNet. On MSCOCO, it outperforms ResNet-101
by 3.7% and 3.6% mAPs for object detection and instance segmentation,
respectively, demonstrating the great potential to be a general backbone
network. Code is available at https://github.com/pengzhiliang/Conformer.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)では、畳み込み操作は局所的な特徴の抽出に適しているが、グローバルな表現を捉えるのが困難である。
視覚変換器内では、カスケードされた自己アテンションモジュールは長距離機能依存をキャプチャできるが、残念ながらローカル機能の詳細を劣化させる。
本稿では,畳み込み操作と自己アテンション機構を活用し,拡張表現学習のためのハイブリッドネットワーク構造であるconformerを提案する。
コンフォーマーはFCU(Feature Coupling Unit)のルーツであり、インタラクティブな方法で異なる解像度で局所的な特徴とグローバルな表現を融合させる。
Conformerは、ローカル特徴とグローバル表現が最大限に維持されるように、並列構造を採用する。
実験によると、Conformerはパラメータの複雑さに比較して、ImageNetで視覚変換器(DeiT-B)を2.3%上回っている。
MSCOCOでは、ResNet-101を3.7%、オブジェクト検出とインスタンスセグメンテーションの3.6%で上回り、一般的なバックボーンネットワークになる可能性を示している。
コードはhttps://github.com/pengzhiliang/conformerで入手できる。
関連論文リスト
- Double-Shot 3D Shape Measurement with a Dual-Branch Network [14.749887303860717]
我々は、異なる構造光(SL)変調を処理するために、デュアルブランチ畳み込みニューラルネットワーク(CNN)-トランスフォーマーネットワーク(PDCNet)を提案する。
PDCNet内では、Transformerブランチを使用してフリンジイメージのグローバルな認識をキャプチャし、CNNブランチはスペックルイメージのローカル詳細を収集するように設計されている。
提案手法は, 自己生成データセット上で高精度な結果が得られる一方で, フランジオーダーの曖昧さを低減できることを示す。
論文 参考訳(メタデータ) (2024-07-19T10:49:26Z) - CMTNet: Convolutional Meets Transformer Network for Hyperspectral Images Classification [3.821081081400729]
現在の畳み込みニューラルネットワーク(CNN)は、ハイパースペクトルデータの局所的な特徴に焦点を当てている。
Transformerフレームワークは、ハイパースペクトル画像からグローバルな特徴を抽出する。
本研究は、CMTNet(Convolutional Meet Transformer Network)を紹介する。
論文 参考訳(メタデータ) (2024-06-20T07:56:51Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - APPT : Asymmetric Parallel Point Transformer for 3D Point Cloud
Understanding [20.87092793669536]
トランスフォーマーベースのネットワークは、3Dポイントクラウド理解において素晴らしいパフォーマンスを達成した。
これらの問題に対処するために,非対称並列点変換器(APPT)を提案する。
APPTは、ローカル詳細機能に集中しながら、ネットワーク全体を通して機能を取り込むことができる。
論文 参考訳(メタデータ) (2023-03-31T06:11:02Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - MAFormer: A Transformer Network with Multi-scale Attention Fusion for
Visual Recognition [45.68567088645708]
マルチスケールアテンションフュージョンを変換器(MAFormer)に導入する。
MAFormerは、視覚認識のためのデュアルストリームフレームワークにおいて、局所的な集約とグローバルな特徴抽出について検討する。
私たちのMAFormerは、一般的な視覚タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-08-31T06:29:27Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - LocalViT: Bringing Locality to Vision Transformers [132.42018183859483]
線、エッジ、形状、さらにはオブジェクトなどの構造に関連するため、画像には局所性が不可欠です。
フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。
この一見シンプルなソリューションは、フィードフォワードネットワークと反転残留ブロックの比較に触発されます。
論文 参考訳(メタデータ) (2021-04-12T17:59:22Z) - Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for
Place Recognition [29.282413482297255]
本稿では,Patch-NetVLADを紹介し,ローカルおよびグローバルデクリプタ手法の利点を組み合わせた新しい定式化を提案する。
Patch-NetVLADは,グローバルおよびローカルな特徴記述子ベースの手法と同等の計算量で優れることを示す。
ユーザ要件にも適応可能で、スピード最適化バージョンは最先端のものよりも桁違いに高速に動作する。
論文 参考訳(メタデータ) (2021-03-02T05:53:32Z) - Visual Concept Reasoning Networks [93.99840807973546]
分割変換マージ戦略は、視覚認識タスクのための畳み込みニューラルネットワークのアーキテクチャ制約として広く使用されている。
我々は、この戦略を利用して、高レベルの視覚概念間の推論を可能にするために、Visual Concept Reasoning Networks (VCRNet) と組み合わせることを提案する。
提案するモデルであるVCRNetは、パラメータ数を1%以下にすることで、一貫して性能を向上する。
論文 参考訳(メタデータ) (2020-08-26T20:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。