論文の概要: Salient Positions based Attention Network for Image Classification
- arxiv url: http://arxiv.org/abs/2106.04996v1
- Date: Wed, 9 Jun 2021 11:32:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:09:52.266140
- Title: Salient Positions based Attention Network for Image Classification
- Title(参考訳): 画像分類のための有意位置に基づく注意ネットワーク
- Authors: Sheng Fang, Kaiyu Li, Zhe Li
- Abstract要約: 本稿では、位置に基づく注意体系SPANetを提案する。
これは、自己注意スキームで生成された注意マップと親和性行列に関する興味深い観察から着想を得たものである。
本実装では, チャネル次元に沿った特徴写像の2乗パワーを, 位置の正則度として捉えた。
- 参考スコア(独自算出の注目度): 4.3042132650827964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The self-attention mechanism has attracted wide publicity for its most
important advantage of modeling long dependency, and its variations in computer
vision tasks, the non-local block tries to model the global dependency of the
input feature maps. Gathering global contextual information will inevitably
need a tremendous amount of memory and computing resources, which has been
extensively studied in the past several years. However, there is a further
problem with the self-attention scheme: is all information gathered from the
global scope helpful for the contextual modelling? To our knowledge, few
studies have focused on the problem. Aimed at both questions this paper
proposes the salient positions-based attention scheme SPANet, which is inspired
by some interesting observations on the attention maps and affinity matrices
generated in self-attention scheme. We believe these observations are
beneficial for better understanding of the self-attention. SPANet uses the
salient positions selection algorithm to select only a limited amount of
salient points to attend in the attention map computing. This approach will not
only spare a lot of memory and computing resources, but also try to distill the
positive information from the transformation of the input feature maps. In the
implementation, considering the feature maps with channel high dimensions,
which are completely different from the general visual image, we take the
squared power of the feature maps along the channel dimension as the saliency
metric of the positions. In general, different from the non-local block method,
SPANet models the contextual information using only the selected positions
instead of all, along the channel dimension instead of space dimension. Our
source code is available at https://github.com/likyoo/SPANet.
- Abstract(参考訳): セルフ・アテンション・メカニズムは、長期依存のモデリングの最も重要な利点とコンピュータビジョンのタスクのバリエーションから広く注目を集めており、非局所ブロックは入力特徴マップのグローバル依存のモデル化を試みる。
グローバルなコンテキスト情報を集めるには、この数年間で広く研究されてきた膨大な量のメモリとコンピューティングリソースが必要になる。
しかし、自己注意スキームにはさらなる問題がある: グローバルスコープから収集された全ての情報は、文脈モデリングに役立ちますか?
私たちの知る限り、この問題に焦点をあてた研究はほとんどない。
どちらの質問も対象とし,本論文では,注意マップと親和行列に関する興味深い観察から着想を得た,注目度に基づく注意スキームspanetを提案する。
これらの観察は、自己意識の理解を深める上で有益であると考えています。
SPANetは、アテンションマップコンピューティングに参加するために限られた数のサレントポイントだけを選択するために、サレント位置選択アルゴリズムを使用する。
このアプローチは、多くのメモリやコンピューティングリソースを犠牲にするだけでなく、入力された特徴写像の変換から肯定的な情報を抽出しようとする。
本実装では,一般視覚画像とは全く異なるチャネル高次元の特徴写像を考慮し,特徴写像の2乗パワーをチャネル次元に沿って位置のサリエンシーメトリックとして捉える。
一般に、非局所ブロック法とは異なり、スパネットは空間次元ではなくチャネル次元に沿って、選択された位置のみを使用して文脈情報をモデル化する。
ソースコードはhttps://github.com/likyoo/spanetで入手できます。
関連論文リスト
- A Self-Training Framework Based on Multi-Scale Attention Fusion for
Weakly Supervised Semantic Segmentation [7.36778096476552]
融合型マルチスケールクラス対応アテンションマップを利用した自己学習手法を提案する。
異なるスケールのアテンションマップから情報を収集し、マルチスケールアテンションマップを得る。
次に、潜在的な領域を拡大し、ノイズの少ない領域を減らし、認知と再活性化の戦略を適用した。
論文 参考訳(メタデータ) (2023-05-10T02:16:12Z) - Improving Fine-Grained Visual Recognition in Low Data Regimes via
Self-Boosting Attention Mechanism [27.628260249895973]
SAM(Self-boosting attention mechanism)は、ネットワークを正規化して、サンプルやクラス間で共有されるキー領域に集中するための新しい手法である。
我々はSAMを用いて、二線形プール方式で畳み込みマップをプールするために複数の注意マップを作成する変種を開発する。
論文 参考訳(メタデータ) (2022-08-01T05:36:27Z) - From Pixels to Objects: Cubic Visual Attention for Visual Question
Answering [132.95819467484517]
近年,注目度に基づく視覚質問応答 (VQA) は,質問を利用して回答に関連する異なる視覚領域をターゲットにすることで大きな成功を収めている。
本稿では、VQAタスクを改善するために、新しいチャネルと空間的注意をオブジェクト領域に適用し、キュービック視覚注意(CVA)モデルを提案する。
実験の結果,提案手法は最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2022-06-04T07:03:18Z) - L2G: A Simple Local-to-Global Knowledge Transfer Framework for Weakly
Supervised Semantic Segmentation [67.26984058377435]
高品質なオブジェクトアテンションマイニングのための簡易なローカル・グローバルな知識伝達フレームワークであるL2Gについて述べる。
本フレームワークは,グローバルな視点から収集したリッチオブジェクトの詳細知識をグローバルネットワークで学習する。
実験の結果,PASCAL VOC 2012とMS COCO 2014の検証セットにおいて,72.1%,44.2%のmIoU値が得られた。
論文 参考訳(メタデータ) (2022-04-07T04:31:32Z) - Learning to ignore: rethinking attention in CNNs [87.01305532842878]
我々は,CNNの注意機構を再構築し,出席する学習ではなく無視することを学ぶことを提案する。
具体的には、シーン内で無関係な情報を明示的に学習し、生成した表現でそれを抑えることを提案する。
論文 参考訳(メタデータ) (2021-11-10T13:47:37Z) - Discriminative Region-based Multi-Label Zero-Shot Learning [145.0952336375342]
マルチラベルゼロショット学習(Multi-label zero-shot Learning、ZSL)は、標準のシングルラベルZSLのより現実的な対位法である。
本稿では,地域別識別可能性保存型ZSLに対する代替アプローチを提案する。
論文 参考訳(メタデータ) (2021-08-20T17:56:47Z) - GA-NET: Global Attention Network for Point Cloud Semantic Segmentation [3.655021726150368]
3Dポイントクラウドから長距離依存関係を学習する方法は、3Dポイントクラウド分析において難しい問題である。
本稿では,GA-Net という名称のポイントクラウドセマンティックセマンティックセグメンテーションのためのグローバルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2021-07-07T09:35:59Z) - Coordinate Attention for Efficient Mobile Network Design [96.40415345942186]
チャネルの注目に位置情報を埋め込むことにより,モバイルネットワークに対する新たな注意メカニズムを提案する。
2次元グローバルプーリングにより特徴テンソルを単一特徴ベクトルに変換するチャネルアテンションとは異なり、座標アテンションはチャネルアテンションを2つの1次元特徴符号化プロセスに分解する。
座標の注意はImageNetの分類に有用であり、オブジェクト検出やセマンティックセグメンテーションといった下流タスクではよりうまく振る舞う。
論文 参考訳(メタデータ) (2021-03-04T09:18:02Z) - Rotate to Attend: Convolutional Triplet Attention Module [21.228370317693244]
3分岐構造を用いた新しい注意重み計算法である三重項注意法を提案する。
本手法は単純かつ効率的であり,アドオンモジュールとして従来のバックボーンネットワークに簡単に接続できる。
ImageNet-1k上の画像分類や,MSCOCOおよびPASCAL VOCデータセット上でのオブジェクト検出など,様々な課題に対する本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-10-06T21:31:00Z) - Gravitational Models Explain Shifts on Human Visual Attention [80.76475913429357]
視覚的注意(英: visual attention)とは、人間の脳が優先的な処理のために関連する感覚情報を選択する能力を指す。
過去30年間に様々な評価方法が提案されてきた。
注意変動を記述するための重力モデル(GRAV)を提案する。
論文 参考訳(メタデータ) (2020-09-15T10:12:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。