論文の概要: SCSA: Exploring the Synergistic Effects Between Spatial and Channel Attention
- arxiv url: http://arxiv.org/abs/2407.05128v2
- Date: Tue, 12 Nov 2024 08:24:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:16:59.661366
- Title: SCSA: Exploring the Synergistic Effects Between Spatial and Channel Attention
- Title(参考訳): SCSA:空間的意識とチャネル意識の相乗効果を探る
- Authors: Yunzhong Si, Huiying Xu, Xinzhong Zhu, Wenhao Zhang, Yao Dong, Yuxing Chen, Hongbo Li,
- Abstract要約: 我々は,新しい空間・チャネル同期型アテンションモジュール (SCSA) を提案する。
SCSAは,共有型マルチセマンティック空間注意 (SMSA) とプログレッシブチャネルワイド自己注意 (PCSA) の2つの部分から構成される。
以上の結果から,提案したSCSAは現状の注目に勝るだけでなく,様々なタスクシナリオにまたがる一般化能力の向上も示している。
- 参考スコア(独自算出の注目度): 10.248565628638936
- License:
- Abstract: Channel and spatial attentions have respectively brought significant improvements in extracting feature dependencies and spatial structure relations for various downstream vision tasks. While their combination is more beneficial for leveraging their individual strengths, the synergy between channel and spatial attentions has not been fully explored, lacking in fully harness the synergistic potential of multi-semantic information for feature guidance and mitigation of semantic disparities. Our study attempts to reveal the synergistic relationship between spatial and channel attention at multiple semantic levels, proposing a novel Spatial and Channel Synergistic Attention module (SCSA). Our SCSA consists of two parts: the Shareable Multi-Semantic Spatial Attention (SMSA) and the Progressive Channel-wise Self-Attention (PCSA). SMSA integrates multi-semantic information and utilizes a progressive compression strategy to inject discriminative spatial priors into PCSA's channel self-attention, effectively guiding channel recalibration. Additionally, the robust feature interactions based on the self-attention mechanism in PCSA further mitigate the disparities in multi-semantic information among different sub-features within SMSA. We conduct extensive experiments on seven benchmark datasets, including classification on ImageNet-1K, object detection on MSCOCO 2017, segmentation on ADE20K, and four other complex scene detection datasets. Our results demonstrate that our proposed SCSA not only surpasses the current state-of-the-art attention but also exhibits enhanced generalization capabilities across various task scenarios. The code and models are available at: https://github.com/HZAI-ZJNU/SCSA.
- Abstract(参考訳): チャネルと空間の注意は、様々な下流視覚タスクにおける特徴依存と空間構造の関係を抽出する上で大きな改善をもたらした。
彼らの組み合わせは個々の強みを利用するのに有用であるが、チャネルと空間の注意の相乗効果は十分に検討されておらず、特徴指導と意味格差の緩和のために多意味情報の相乗的ポテンシャルを十分に活用できなかった。
本研究では,複数の意味レベルでの空間的注意とチャネル的注意の相乗的関係を明らかにすることを目的として,新しい空間的・チャネル的意識モジュール(SCSA)を提案する。
SCSAは,共有型マルチセマンティック空間注意 (SMSA) とプログレッシブチャネルワイド自己注意 (PCSA) の2つの部分から構成される。
SMSAは、マルチセマンティック情報を統合し、プログレッシブ圧縮戦略を利用して、PCSAのチャネル自己アテンションに差別的空間事前を注入し、効果的にチャネルリカバリを導出する。
さらに,PCSAにおける自己認識機構に基づくロバストな特徴相互作用により,SMSA内の複数のサブ機能間のマルチセマンティック情報の相違が軽減される。
我々は、ImageNet-1Kの分類、MSCOCO 2017のオブジェクト検出、ADE20Kのセグメンテーション、その他4つの複雑なシーン検出データセットを含む7つのベンチマークデータセットについて広範な実験を行った。
以上の結果から,提案したSCSAは現状の注目に勝るだけでなく,様々なタスクシナリオにまたがる一般化能力の向上も示している。
コードとモデルは、https://github.com/HZAI-ZJNU/SCSA.comで入手できる。
関連論文リスト
- CSA-Net: Channel-wise Spatially Autocorrelated Attention Networks [19.468704622654357]
深部CNNに対するチャネルワイド空間自己相関(CSA)アテンション機構を提案する。
地理的解析にインスパイアされた提案CSAは,特徴写像のチャネル間の空間的関係を利用して,効果的なチャネル記述子を生成する。
我々は、ImageNetおよびMS COCOベンチマークデータセットの広範な実験と分析により、提案したCSAネットワークの有効性を検証する。
論文 参考訳(メタデータ) (2024-05-09T13:21:03Z) - Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。
具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。
セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文 参考訳(メタデータ) (2024-05-06T16:31:19Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Unified Domain Adaptive Semantic Segmentation [96.74199626935294]
Unsupervised Adaptive Domain Semantic (UDA-SS)は、ラベル付きソースドメインからラベル付きターゲットドメインに監督を移すことを目的としている。
本稿では,特徴量と特徴量との相違に対処するQuad-directional Mixup(QuadMix)法を提案する。
提案手法は,4つの挑戦的UDA-SSベンチマークにおいて,最先端の成果を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2023-11-22T09:18:49Z) - Dual-Attention Enhanced BDense-UNet for Liver Lesion Segmentation [3.1667381240856987]
本稿では,DA-BDense-UNetと呼ばれる,DenseUNetと双方向LSTMを統合した新たなセグメンテーションネットワークを提案する。
DenseUNetは十分な多様な特徴を学習し、情報フローを調節することでネットワークの代表的能力を高める。
論文 参考訳(メタデータ) (2021-07-24T16:28:00Z) - Channelized Axial Attention for Semantic Segmentation [70.14921019774793]
チャネルアキシャルアテンション(CAA)を提案し、チャネルアテンションと軸アテンションをシームレスに統合し、計算複雑性を低減します。
私たちのCAAは、DANetのような他の注意モデルに比べて計算リソースをはるかに少なくするだけでなく、すべての検証済みデータセット上で最先端のResNet-101ベースのセグメンテーションモデルよりも優れています。
論文 参考訳(メタデータ) (2021-01-19T03:08:03Z) - Single Image Super-Resolution via a Holistic Attention Network [87.42409213909269]
本稿では,階層,チャネル,位置間の全体的相互依存性をモデル化するための新しい全体論的注意ネットワーク(HAN)を提案する。
提案したHANは階層的特徴を適応的に強調し,層間相関を考慮した。
実験により、提案HANは、最先端の単一画像超解像アプローチに対して好適に機能することが示された。
論文 参考訳(メタデータ) (2020-08-20T04:13:15Z) - Landmark Guidance Independent Spatio-channel Attention and Complementary
Context Information based Facial Expression Recognition [5.076419064097734]
現代の顔表情認識(FER)アーキテクチャは、注意を定義するためにランドマーク検出器のような外部ソースに依存している。
本研究では,空間的位置当たりのチャネルごとの局所的および大域的注目度を求める FER のエンドツーエンドアーキテクチャを提案する。
提案したモデルのロバスト性と優れた性能は,組込みデータセットと組込みデータセットの両方で実証される。
論文 参考訳(メタデータ) (2020-07-20T17:33:32Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。