論文の概要: TDAN: Top-Down Attention Networks for Enhanced Feature Selectivity in
CNNs
- arxiv url: http://arxiv.org/abs/2111.13470v1
- Date: Fri, 26 Nov 2021 12:35:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 21:02:58.241185
- Title: TDAN: Top-Down Attention Networks for Enhanced Feature Selectivity in
CNNs
- Title(参考訳): TDAN:CNNにおける機能選択性向上のためのトップダウン注意ネットワーク
- Authors: Shantanu Jaiswal, Basura Fernando, Cheston Tan
- Abstract要約: 本稿では,トップダウンチャネルと空間変調を行うために,視覚検索ライトを反復的に生成する軽量なトップダウンアテンションモジュールを提案する。
我々のモデルは、推論中の入力解像度の変化に対してより堅牢であり、個々のオブジェクトや特徴を明示的な監督なしに各計算ステップでローカライズすることで、注意を"シフト"することを学ぶ。
- 参考スコア(独自算出の注目度): 18.24779045808196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention modules for Convolutional Neural Networks (CNNs) are an effective
method to enhance performance of networks on multiple computer-vision tasks.
While many works focus on building more effective modules through appropriate
modelling of channel-, spatial- and self-attention, they primarily operate in a
feedfoward manner. Consequently, the attention mechanism strongly depends on
the representational capacity of a single input feature activation, and can
benefit from incorporation of semantically richer higher-level activations that
can specify "what and where to look" through top-down information flow. Such
feedback connections are also prevalent in the primate visual cortex and
recognized by neuroscientists as a key component in primate visual attention.
Accordingly, in this work, we propose a lightweight top-down (TD) attention
module that iteratively generates a "visual searchlight" to perform top-down
channel and spatial modulation of its inputs and consequently outputs more
selective feature activations at each computation step. Our experiments
indicate that integrating TD in CNNs enhances their performance on ImageNet-1k
classification and outperforms prominent attention modules while being more
parameter and memory efficient. Further, our models are more robust to changes
in input resolution during inference and learn to "shift attention" by
localizing individual objects or features at each computation step without any
explicit supervision. This capability results in 5% improvement for ResNet50 on
weakly-supervised object localization besides improvements in fine-grained and
multi-label classification.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)のアテンションモジュールは、複数のコンピュータビジョンタスクにおけるネットワークの性能を高める効果的な方法である。
多くの作品はチャネル、空間、セルフ・アテンションの適切なモデリングを通してより効果的なモジュールを構築することに重点を置いているが、それらは主にフィードフォワード方式で機能する。
したがって、アテンションメカニズムは単一の入力特徴アクティベーションの表現能力に強く依存し、トップダウン情報フローを通じて「何とどこに見えるか」を指定できる意味的にリッチな高レベルのアクティベーションを組み込むことの恩恵を受けることができる。
このようなフィードバック接続は霊長類の視覚野でも広く見られ、霊長類の視覚注意の重要な要素として神経科学者によって認識されている。
そこで,本研究では,トップダウンチャネルと空間変調を行うための「視覚検索光」を反復的に生成する軽量なトップダウンアテンションモジュールを提案し,計算ステップ毎により選択的な特徴アクティベーションを出力する。
実験の結果,cnnsにtdを統合するとimagenet-1k分類の性能が向上し,パラメータやメモリ効率が向上する一方,注目すべき注意モジュールを上回った。
さらに,提案モデルは推論中の入力解像度の変化に対してより頑健であり,明示的な監督なしに各計算ステップで個々のオブジェクトや特徴をローカライズすることで「注意を移す」ことを学ぶ。
この機能は、細粒度とマルチラベルの分類の改善に加えて、弱教師付きオブジェクトローカライゼーションにおけるResNet50の5%の改善をもたらす。
関連論文リスト
- Vision Eagle Attention: A New Lens for Advancing Image Classification [0.8158530638728501]
コンボリューショナルな空間的注意力を用いた視覚的特徴抽出を促進する新しい注意機構であるビジョンイーグル注意(Vision Eagle Attention)を導入する。
このモデルは、局所的な空間的特徴を捉えるために畳み込みを適用し、画像の最も情報性の高い領域を選択的に強調するアテンションマップを生成する。
Vision Eagle Attentionを軽量なResNet-18アーキテクチャに統合しました。
論文 参考訳(メタデータ) (2024-11-15T20:21:59Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - Influencer Detection with Dynamic Graph Neural Networks [56.1837101824783]
インフルエンサー検出のための動的グラフニューラルネットワーク(GNN)の構成について検討する。
GNNにおける深層多面的注意と時間特性の符号化が性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2022-11-15T13:00:25Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
提案手法は1dB以上で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-05-09T17:36:58Z) - An Attention Module for Convolutional Neural Networks [5.333582981327498]
本稿では,AW-畳み込みを開発することで,畳み込みニューラルネットワークのためのアテンションモジュールを提案する。
画像分類とオブジェクト検出タスクのための複数のデータセットの実験により,提案した注目モジュールの有効性が示された。
論文 参考訳(メタデータ) (2021-08-18T15:36:18Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - Multi-stage Attention ResU-Net for Semantic Segmentation of
Fine-Resolution Remote Sensing Images [9.398340832493457]
この問題に対処するための線形注意機構(LAM)を提案する。
LAMは、計算効率の高いドット積アテンションとほぼ同値である。
微細なリモートセンシング画像からのセマンティックセグメンテーションのためのマルチステージアテンションResU-Netを設計する。
論文 参考訳(メタデータ) (2020-11-29T07:24:21Z) - Efficient Attention Network: Accelerate Attention by Searching Where to
Plug [11.616720452770322]
本稿では,既存のアテンションモジュールの効率を改善するために,EAN(Efficient Attention Network)というフレームワークを提案する。
EANでは、共有メカニズムを活用して、バックボーン内のアテンションモジュールを共有し、強化学習を通じて共有アテンションモジュールを接続する場所を探索する。
広く使われているベンチマークと一般的な注意ネットワークの実験は、EANの有効性を示している。
論文 参考訳(メタデータ) (2020-11-28T03:31:08Z) - Hybrid Multiple Attention Network for Semantic Segmentation in Aerial
Images [24.35779077001839]
グローバルな相関関係を適応的に捉えるために,Hybrid Multiple Attention Network (HMANet) という新しいアテンションベースのフレームワークを提案する。
本稿では,機能的冗長性を低減し,自己注意機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを提案する。
論文 参考訳(メタデータ) (2020-01-09T07:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。