論文の概要: EMBANet: A Flexible Efffcient Multi-branch Attention Network
- arxiv url: http://arxiv.org/abs/2407.05418v1
- Date: Sun, 7 Jul 2024 15:50:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 19:47:49.291504
- Title: EMBANet: A Flexible Efffcient Multi-branch Attention Network
- Title(参考訳): EMBANet: 柔軟なマルチブランチアテンションネットワーク
- Authors: Keke Zu, Hu Zhang, Jian Lu, Lei Zhang, Chen Xu,
- Abstract要約: この研究は、入力テンソルを処理し、マルチスケール特徴写像を得るための新しいモジュール、すなわち、マルチブランチ・コンキャット(MBC)を提示する。
この研究では、多重化と分割という2つの重要な変換作用素が考慮されている。
EMBANetと呼ばれる新しいバックボーンネットワークは、EMBAブロックを積み重ねることで確立される。
- 参考スコア(独自算出の注目度): 12.372988694006262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a novel module, namely multi-branch concat (MBC), to process the input tensor and obtain the multi-scale feature map. The proposed MBC module brings new degrees of freedom (DoF) for the design of attention networks by allowing the type of transformation operators and the number of branches to be flexibly adjusted. Two important transformation operators, multiplex and split, are considered in this work, both of which can represent multi-scale features at a more granular level and increase the range of receptive fields. By integrating the MBC and attention module, a multi-branch attention (MBA) module is consequently developed to capture the channel-wise interaction of feature maps for establishing the long-range channel dependency. By substituting the 3x3 convolutions in the bottleneck blocks of the ResNet with the proposed MBA, a novel block namely efficient multi-branch attention (EMBA) is obtained, which can be easily plugged into the state-of-the-art backbone CNN models. Furthermore, a new backbone network called EMBANet is established by stacking the EMBA blocks. The proposed EMBANet is extensively evaluated on representative computer vision tasks including: classification, detection, and segmentation. And it demonstrates consistently superior performance over the popular backbones.
- Abstract(参考訳): この研究は、入力テンソルを処理し、マルチスケール特徴写像を得るための新しいモジュール、すなわち、マルチブランチ・コンキャット(MBC)を提示する。
提案したMBCモジュールは、変換演算子の種類と分岐数を柔軟に調整することで、注目ネットワークの設計に新たな自由度(DoF)をもたらす。
この研究では、多重化と分割という2つの重要な変換作用素が考慮され、どちらもより粒度の細かいマルチスケールな特徴を表現でき、受容場の範囲を拡大することができる。
MBCとアテンションモジュールを統合することで、長距離チャネル依存性を確立するための特徴マップのチャネルワイズ相互作用を捉えるために、マルチブランチアテンション(MBA)モジュールを開発する。
提案したMBAとResNetのボトルネックブロック内の3x3畳み込みを置換することにより、最先端のバックボーンCNNモデルに容易に接続可能な、新しいブロック、EMBA(Multi-branch attention)が得られる。
さらに、EMBAブロックを積み重ねることで、EMBANetと呼ばれる新しいバックボーンネットワークを確立する。
提案するEMBANetは, 分類, 検出, セグメンテーションなどのコンピュータビジョンタスクにおいて, 広範囲に評価されている。
そして、人気のあるバックボーンよりも一貫して優れたパフォーマンスを示している。
関連論文リスト
- Branches, Assemble! Multi-Branch Cooperation Network for Large-Scale Click-Through Rate Prediction at Taobao [49.11242099449315]
MBCnet(Multi-Branch Cooperation Network)を紹介する。
MBCnetは、Expert-based Feature Grouping and Crossing (EFGC)、低ランククロスネットブランチ、Deepブランチの3つのブランチで構成されている。
大規模産業データセットとオンラインA/Bテストの実験では、MBCnetのパフォーマンスが向上し、CTRが0.09ポイント、取引が1.49%、GMVが1.62%向上した。
論文 参考訳(メタデータ) (2024-11-20T06:10:06Z) - CAMS: Convolution and Attention-Free Mamba-based Cardiac Image Segmentation [0.508267104652645]
畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースの自己アテンションモデルは、医療画像セグメンテーションの標準となっている。
本稿では,CAMS-Netという,コンボリューションと自己意図のないマンバに基づくセマンティックネットワークを提案する。
我々のモデルは,CMRおよびM&Ms-2カードセグメンテーションデータセットにおける既存の最先端CNN,自己注意,およびMambaベースの手法よりも優れている。
論文 参考訳(メタデータ) (2024-06-09T13:53:05Z) - MFPNet: Multi-scale Feature Propagation Network For Lightweight Semantic
Segmentation [5.58363644107113]
マルチスケール特徴伝達ネットワーク(Net)と呼ばれる,新しい軽量セグメンテーションアーキテクチャを提案する。
フレキシブル・ボトルネック・残差モジュール(BRM)からなる対称残差ブロックを有するロバスト・デコーダ構造を設計する。
遅延長範囲のコンテキスト関係をモデル化する能力の利点を生かして、グラフ畳み込みネットワーク(GCN)を活用し、BRMブロック間のマルチスケールフィーチャの伝搬を容易にする。
論文 参考訳(メタデータ) (2023-09-10T02:02:29Z) - RGBT Tracking via Progressive Fusion Transformer with Dynamically Guided
Learning [37.067605349559]
本稿ではProFormerと呼ばれる新しいプログレッシブフュージョントランスを提案する。
単一のモダリティ情報をマルチモーダル表現に統合し、堅牢なRGBT追跡を行う。
ProFormerは、RGBT210、RGBT234、LasHeR、VTUAVデータセットに新しい最先端パフォーマンスを設定する。
論文 参考訳(メタデータ) (2023-03-26T16:55:58Z) - Enhancing Medical Image Segmentation with TransCeption: A Multi-Scale
Feature Fusion Approach [3.9548535445908928]
CNNベースの手法は、その有望な性能と堅牢性のために、医用画像セグメンテーションの基盤となっている。
グローバルな文脈相関をモデル化するために受信フィールドを拡大するため,トランスフォーマーベースのアプローチが普及している。
本稿では,トランスセグメンテーション(TransCeption for Medical Image segmentation)を提案する。
論文 参考訳(メタデータ) (2023-01-25T22:09:07Z) - DoubleU-NetPlus: A Novel Attention and Context Guided Dual U-Net with
Multi-Scale Residual Feature Fusion Network for Semantic Segmentation of
Medical Images [2.20200533591633]
本稿ではDoubleU-NetPlusという2つのU-Netアーキテクチャを提案する。
我々は,識別的特徴表現をモデル化するネットワークの能力を高めるために,マルチコンテキスト特徴といくつかの注意戦略を利用する。
勾配消滅問題を緩和し、より深い空間的詳細を持つ高分解能特徴を取り入れるため、標準畳み込み操作を注意誘導残差畳み込み操作に置き換える。
論文 参考訳(メタデータ) (2022-11-25T16:56:26Z) - Deep Image Clustering with Contrastive Learning and Multi-scale Graph
Convolutional Networks [58.868899595936476]
コントラスト学習とマルチスケールグラフ畳み込みネットワーク(IcicleGCN)を用いた画像クラスタリング手法を提案する。
複数の画像データセットの実験は、最先端のIcicleGCNよりも優れたクラスタリング性能を示している。
論文 参考訳(メタデータ) (2022-07-14T19:16:56Z) - DeMFI: Deep Joint Deblurring and Multi-Frame Interpolation with
Flow-Guided Attentive Correlation and Recursive Boosting [50.17500790309477]
DeMFI-Netは、共同でデブロアリングとマルチフレームのフレームワークである。
低フレームレートのぼやけたビデオを高フレームレートでシャープなビデオに変換する。
多様なデータセットに対して、最先端(SOTA)のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-19T00:00:15Z) - Learning Deep Multimodal Feature Representation with Asymmetric
Multi-layer Fusion [63.72912507445662]
本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。
我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。
次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
論文 参考訳(メタデータ) (2021-08-11T03:42:13Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - Diverse Branch Block: Building a Convolution as an Inception-like Unit [123.59890802196797]
畳み込みニューラルネットワーク(Convolutional Neural Network、ConvNet)のユニバーサルビルディングブロックを提案し、推論時間コストなしでパフォーマンスを向上させる。
Diverse Branch Block(DBB)は、異なるスケールと複雑さの多様なブランチを組み合わせることで、単一の畳み込みの表現能力を高めます。
トレーニング後、DBBを単一のConv層に等価に変換してデプロイすることができる。
論文 参考訳(メタデータ) (2021-03-24T18:12:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。