論文の概要: Information Bottleneck Approach to Spatial Attention Learning
- arxiv url: http://arxiv.org/abs/2108.03418v1
- Date: Sat, 7 Aug 2021 10:35:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 15:31:58.239172
- Title: Information Bottleneck Approach to Spatial Attention Learning
- Title(参考訳): 空間注意学習への情報ボトルネックアプローチ
- Authors: Qiuxia Lai and Yu Li and Ailing Zeng and Minhao Liu and Hanqiu Sun and
Qiang Xu
- Abstract要約: 人間の視覚システム(HVS)における選択的な視覚的注意機構は、自然のシーンを認識するための視覚的認識に到達するための情報の量を制限する。
このような選択性は、情報圧縮と予測精度のトレードオフを求める「情報ボトルネック(IB)」として機能する。
視覚認識のために構築されたディープニューラルネットワーク(DNN)のためのIBインスパイアされた空間アテンションモジュールを提案する。
- 参考スコア(独自算出の注目度): 21.083618550304703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The selective visual attention mechanism in the human visual system (HVS)
restricts the amount of information to reach visual awareness for perceiving
natural scenes, allowing near real-time information processing with limited
computational capacity [Koch and Ullman, 1987]. This kind of selectivity acts
as an 'Information Bottleneck (IB)', which seeks a trade-off between
information compression and predictive accuracy. However, such information
constraints are rarely explored in the attention mechanism for deep neural
networks (DNNs). In this paper, we propose an IB-inspired spatial attention
module for DNN structures built for visual recognition. The module takes as
input an intermediate representation of the input image, and outputs a
variational 2D attention map that minimizes the mutual information (MI) between
the attention-modulated representation and the input, while maximizing the MI
between the attention-modulated representation and the task label. To further
restrict the information bypassed by the attention map, we quantize the
continuous attention scores to a set of learnable anchor values during
training. Extensive experiments show that the proposed IB-inspired spatial
attention mechanism can yield attention maps that neatly highlight the regions
of interest while suppressing backgrounds, and bootstrap standard DNN
structures for visual recognition tasks (e.g., image classification,
fine-grained recognition, cross-domain classification). The attention maps are
interpretable for the decision making of the DNNs as verified in the
experiments. Our code is available at https://github.com/ashleylqx/AIB.git.
- Abstract(参考訳): ヒト視覚システム(hvs)における選択的視覚注意機構は、自然シーンを知覚するための視覚認識に到達するための情報量を制限し、計算能力に制限のあるリアルタイムに近い情報処理を可能にする [koch and ullman, 1987]。
この種の選択性は情報圧縮と予測精度のトレードオフを求める「情報ボトルネック(ib)」として機能する。
しかし、このような情報制約が深層ニューラルネットワーク(dnn)の注意メカニズムで検討されることはほとんどない。
本稿では,視覚認識のためのdnn構造のためのibインスパイアされた空間注意モジュールを提案する。
モジュールは入力画像の中間表現として入力され、注目変調表現とタスクラベルとのMIを最大化しつつ、注目変調表現と入力との相互情報(MI)を最小化する変動2D注目マップを出力する。
注意マップが通過する情報をさらに制限するために、トレーニング中に学習可能なアンカー値のセットに連続的な注意スコアを量子化する。
広範な実験により、ibに触発された空間的注意機構は、背景を抑えながら関心領域を適切に強調するアテンションマップと、視覚認識タスク(画像分類、きめ細かい認識、クロスドメイン分類など)のための標準dnn構造をブートストラップできることが示されている。
注意マップは、実験で検証されたDNNの意思決定に対して解釈可能である。
私たちのコードはhttps://github.com/ashleylqx/aib.gitで利用可能です。
関連論文リスト
- Spatial-Temporal Attention Network for Open-Set Fine-Grained Image
Recognition [14.450381668547259]
空間的自己注意機構を持つ視覚変換器は、細粒度の異なる画像のカテゴリを識別するために正確な注意マップを学習できなかった。
本稿では,STANと呼ばれる細粒度特徴表現を学習するための時空間アテンションネットワークを提案する。
提案したSTAN-OSFGRは,9つの最先端のオープンセット認識法に優れる。
論文 参考訳(メタデータ) (2022-11-25T07:46:42Z) - Where to Look: A Unified Attention Model for Visual Recognition with
Reinforcement Learning [5.247711598719703]
視覚的注意を繰り返すために,トップダウンとボトムアップを一体化することを提案する。
我々のモデルは、画像ピラミッドとQラーニングを利用して、トップダウンアテンションメカニズムにおける関心領域を選択する。
我々は、エンドツーエンドの強化学習フレームワークでモデルをトレーニングし、視覚的分類タスクにおける手法の評価を行う。
論文 参考訳(メタデータ) (2021-11-13T18:44:50Z) - Learning to ignore: rethinking attention in CNNs [87.01305532842878]
我々は,CNNの注意機構を再構築し,出席する学習ではなく無視することを学ぶことを提案する。
具体的には、シーン内で無関係な情報を明示的に学習し、生成した表現でそれを抑えることを提案する。
論文 参考訳(メタデータ) (2021-11-10T13:47:37Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - Coordinate Attention for Efficient Mobile Network Design [96.40415345942186]
チャネルの注目に位置情報を埋め込むことにより,モバイルネットワークに対する新たな注意メカニズムを提案する。
2次元グローバルプーリングにより特徴テンソルを単一特徴ベクトルに変換するチャネルアテンションとは異なり、座標アテンションはチャネルアテンションを2つの1次元特徴符号化プロセスに分解する。
座標の注意はImageNetの分類に有用であり、オブジェクト検出やセマンティックセグメンテーションといった下流タスクではよりうまく振る舞う。
論文 参考訳(メタデータ) (2021-03-04T09:18:02Z) - Rotate to Attend: Convolutional Triplet Attention Module [21.228370317693244]
3分岐構造を用いた新しい注意重み計算法である三重項注意法を提案する。
本手法は単純かつ効率的であり,アドオンモジュールとして従来のバックボーンネットワークに簡単に接続できる。
ImageNet-1k上の画像分類や,MSCOCOおよびPASCAL VOCデータセット上でのオブジェクト検出など,様々な課題に対する本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-10-06T21:31:00Z) - Neural encoding with visual attention [17.020869686284165]
トレーニング可能なソフトアテンションモジュールを組み込んだニューラルエンコーディング手法を提案する。
独立データに基づくモデルにより推定された注意位置は、対応する眼球固定パターンとよく一致している。
論文 参考訳(メタデータ) (2020-10-01T16:04:21Z) - Deep Reinforced Attention Learning for Quality-Aware Visual Recognition [73.15276998621582]
我々は,任意の畳み込みニューラルネットワークにおける中間注意マップの弱教師付き生成機構を構築した。
メタ批評家ネットワークを導入し、メインネットワークにおける注目マップの質を評価する。
論文 参考訳(メタデータ) (2020-07-13T02:44:38Z) - Ventral-Dorsal Neural Networks: Object Detection via Selective Attention [51.79577908317031]
我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-15T23:57:36Z) - ADRN: Attention-based Deep Residual Network for Hyperspectral Image
Denoising [52.01041506447195]
ノイズの多いHSIからクリーンなHSIへのマッピングを学習するために,注目に基づくディープ残差ネットワークを提案する。
実験の結果,提案手法は定量的および視覚的評価において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-04T08:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。