論文の概要: Learning to ignore: rethinking attention in CNNs
- arxiv url: http://arxiv.org/abs/2111.05684v1
- Date: Wed, 10 Nov 2021 13:47:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 14:26:56.097888
- Title: Learning to ignore: rethinking attention in CNNs
- Title(参考訳): 無視することを学ぶ:CNNの注意を振り返る
- Authors: Firas Laakom, Kateryna Chumachenko, Jenni Raitoharju, Alexandros
Iosifidis, and Moncef Gabbouj
- Abstract要約: 我々は,CNNの注意機構を再構築し,出席する学習ではなく無視することを学ぶことを提案する。
具体的には、シーン内で無関係な情報を明示的に学習し、生成した表現でそれを抑えることを提案する。
- 参考スコア(独自算出の注目度): 87.01305532842878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been an increasing interest in applying attention
mechanisms in Convolutional Neural Networks (CNNs) to solve computer vision
tasks. Most of these methods learn to explicitly identify and highlight
relevant parts of the scene and pass the attended image to further layers of
the network. In this paper, we argue that such an approach might not be
optimal. Arguably, explicitly learning which parts of the image are relevant is
typically harder than learning which parts of the image are less relevant and,
thus, should be ignored. In fact, in vision domain, there are many
easy-to-identify patterns of irrelevant features. For example, image regions
close to the borders are less likely to contain useful information for a
classification task. Based on this idea, we propose to reformulate the
attention mechanism in CNNs to learn to ignore instead of learning to attend.
Specifically, we propose to explicitly learn irrelevant information in the
scene and suppress it in the produced representation, keeping only important
attributes. This implicit attention scheme can be incorporated into any
existing attention mechanism. In this work, we validate this idea using two
recent attention methods Squeeze and Excitation (SE) block and Convolutional
Block Attention Module (CBAM). Experimental results on different datasets and
model architectures show that learning to ignore, i.e., implicit attention,
yields superior performance compared to the standard approaches.
- Abstract(参考訳): 近年,コンピュータビジョンタスクを解決するために,CNN(Convolutional Neural Networks)に注意機構を適用することへの関心が高まっている。
これらの方法のほとんどは、シーンの関連部分を明示的に識別し、ハイライトし、ネットワークのさらなるレイヤに参加者の画像を渡すことを学ぶ。
本稿では,このようなアプローチが最適でない可能性について論じる。
必然的に、画像のどの部分が関連しているかを明示的に学習することは、画像のどの部分が関連性が低いのかを学習するよりも、一般的には困難である。
実際、視覚領域では、無関係な特徴の容易に識別できるパターンが数多く存在する。
例えば、境界に近い画像領域は、分類タスクに有用な情報を含む可能性が低い。
そこで本研究では,CNNにおける注意機構を再構築し,参加学習ではなく無視学習を行うことを提案する。
具体的には、シーン内の無関係な情報を明示的に学習し、生成した表現でそれを抑制し、重要な属性のみを保持することを提案する。
この暗黙の注意制度は既存の注意機構に組み込むことができる。
本研究では,最近の注目手法であるSqueeze and Excitation(SE)ブロックとConvolutional Block Attention Module(CBAM)を用いて,このアイデアを検証する。
異なるデータセットとモデルアーキテクチャの実験結果から、暗黙の注意を無視する学習は、標準的なアプローチよりも優れたパフォーマンスをもたらすことが示された。
関連論文リスト
- SR-GNN: Spatial Relation-aware Graph Neural Network for Fine-Grained
Image Categorization [24.286426387100423]
本稿では,最も関連性の高い画像領域からコンテキスト認識機能を集約することで,微妙な変化を捉える手法を提案する。
我々のアプローチは、近年の自己注意とグラフニューラルネットワーク(GNN)の発展にインスパイアされている。
これは、認識精度のかなりの差で最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-09-05T19:43:15Z) - Visual Attention Network [90.0753726786985]
本稿では,自己アテンションにおける自己適応性および長距離相関を実現するために,新しいカーネルアテンション(LKA)モジュールを提案する。
また、LKAに基づく新しいニューラルネットワーク、すなわちVisual Attention Network (VAN)を導入する。
VANは、最先端のビジョントランスフォーマーと畳み込みニューラルネットワークを、広範な実験において大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-02-20T06:35:18Z) - Where to Look: A Unified Attention Model for Visual Recognition with
Reinforcement Learning [5.247711598719703]
視覚的注意を繰り返すために,トップダウンとボトムアップを一体化することを提案する。
我々のモデルは、画像ピラミッドとQラーニングを利用して、トップダウンアテンションメカニズムにおける関心領域を選択する。
我々は、エンドツーエンドの強化学習フレームワークでモデルをトレーニングし、視覚的分類タスクにおける手法の評価を行う。
論文 参考訳(メタデータ) (2021-11-13T18:44:50Z) - Information Bottleneck Approach to Spatial Attention Learning [21.083618550304703]
人間の視覚システム(HVS)における選択的な視覚的注意機構は、自然のシーンを認識するための視覚的認識に到達するための情報の量を制限する。
このような選択性は、情報圧縮と予測精度のトレードオフを求める「情報ボトルネック(IB)」として機能する。
視覚認識のために構築されたディープニューラルネットワーク(DNN)のためのIBインスパイアされた空間アテンションモジュールを提案する。
論文 参考訳(メタデータ) (2021-08-07T10:35:32Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - One Point is All You Need: Directional Attention Point for Feature
Learning [51.44837108615402]
ポイントクラウド分類やセグメンテーションなどのタスクのポイント機能強化を学習するための新しい注意ベースのメカニズムを提示する。
我々は,最先端のクラウド分類とセグメンテーションネットワークに注目機構を組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-12-11T11:45:39Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Focus Longer to See Better:Recursively Refined Attention for
Fine-Grained Image Classification [148.4492675737644]
Deep Neural Networkは、粗い粒度の画像分類タスクにおいて大きな進歩を見せている。
本稿では,これらの限界差に着目して,より代表的な特徴を抽出する。
我々のネットワークは、画像の一部に繰り返し焦点を合わせ、クラス間の小さな識別的部分を見つける。
論文 参考訳(メタデータ) (2020-05-22T03:14:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。