論文の概要: Explicitly Modeled Attention Maps for Image Classification
- arxiv url: http://arxiv.org/abs/2006.07872v2
- Date: Thu, 18 Mar 2021 14:18:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 13:13:51.803083
- Title: Explicitly Modeled Attention Maps for Image Classification
- Title(参考訳): 画像分類のための明示的モデル付き注意マップ
- Authors: Andong Tan, Duc Tam Nguyen, Maximilian Dax, Matthias Nie{\ss}ner,
Thomas Brox
- Abstract要約: 自己注意ネットワークは、画像分類などのコンピュータビジョンタスクにおいて顕著な進歩を見せている。
本稿では,計算オーバーヘッドの少ない1つの学習可能なパラメータのみを用いて,アテンションマップを明示的にモデル化した新しいセルフアテンションモジュールを提案する。
提案手法は,ImageNet ILSVRCのResNetベースラインに対して最大2.2%の精度向上を実現する。
- 参考スコア(独自算出の注目度): 35.72763148637619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attention networks have shown remarkable progress in computer vision
tasks such as image classification. The main benefit of the self-attention
mechanism is the ability to capture long-range feature interactions in
attention-maps. However, the computation of attention-maps requires a learnable
key, query, and positional encoding, whose usage is often not intuitive and
computationally expensive. To mitigate this problem, we propose a novel
self-attention module with explicitly modeled attention-maps using only a
single learnable parameter for low computational overhead. The design of
explicitly modeled attention-maps using geometric prior is based on the
observation that the spatial context for a given pixel within an image is
mostly dominated by its neighbors, while more distant pixels have a minor
contribution. Concretely, the attention-maps are parametrized via simple
functions (e.g., Gaussian kernel) with a learnable radius, which is modeled
independently of the input content. Our evaluation shows that our method
achieves an accuracy improvement of up to 2.2% over the ResNet-baselines in
ImageNet ILSVRC and outperforms other self-attention methods such as
AA-ResNet152 in accuracy by 0.9% with 6.4% fewer parameters and 6.7% fewer
GFLOPs. This result empirically indicates the value of incorporating geometric
prior into self-attention mechanism when applied in image classification.
- Abstract(参考訳): 自己追跡ネットワークは、画像分類などのコンピュータビジョンタスクにおいて著しく進歩している。
セルフアテンション機構の主な利点は、アテンションマップで長距離特徴インタラクションをキャプチャできることだ。
しかしながら、アテンションマップの計算には学習可能な鍵、クエリ、位置エンコーディングが必要であり、その使用はしばしば直感的ではなく、計算的に高価である。
この問題を軽減するために,1つの学習可能なパラメータのみを用いて,注意マップを明示的にモデル化した新しい自己注意モジュールを提案する。
幾何学的事前を用いた明示的にモデル化されたアテンションマップの設計は、画像内の与えられたピクセルの空間的コンテキストが主にその隣人によって支配されるのに対して、より遠いピクセルは小さな寄与を持つという観察に基づいている。
具体的には、注意マップは単純な関数(例えばガウス核)を通じて学習可能な半径でパラメータ化され、入力内容とは独立にモデル化される。
評価の結果,imagenet ilsvrcのresnetベースラインよりも最大2.2%精度が向上し,aa-resnet152などの他のセルフアテンション手法を0.9%,パラメータが6.4%,gflopsが6.7%向上した。
この結果は、画像分類に適用した場合、幾何学的事前を自己認識機構に組み込むことの価値を実証的に示す。
関連論文リスト
- Vision Eagle Attention: A New Lens for Advancing Image Classification [0.8158530638728501]
コンボリューショナルな空間的注意力を用いた視覚的特徴抽出を促進する新しい注意機構であるビジョンイーグル注意(Vision Eagle Attention)を導入する。
このモデルは、局所的な空間的特徴を捉えるために畳み込みを適用し、画像の最も情報性の高い領域を選択的に強調するアテンションマップを生成する。
Vision Eagle Attentionを軽量なResNet-18アーキテクチャに統合しました。
論文 参考訳(メタデータ) (2024-11-15T20:21:59Z) - Interaction-aware Joint Attention Estimation Using People Attributes [6.8603181780291065]
本稿では,単一画像における共同注意推定を提案する。
インタラクション・モデリングのために,低次元の特徴として共同注意を符号化するトランスフォーマー・アテンション・ネットワークを提案する。
比較実験でSOTA法を定量的に比較した。
論文 参考訳(メタデータ) (2023-08-10T06:55:51Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - Attend and Guide (AG-Net): A Keypoints-driven Attention-based Deep
Network for Image Recognition [13.230646408771868]
本稿では,新しいアテンション機構を用いて,きめ細かい変化をリンクする意味のある特徴を学習するエンド・ツー・エンドCNNモデルを提案する。
意味領域(SR)とその空間分布を識別することで画像内の空間構造をキャプチャし、画像の微妙な変化をモデル化する鍵であることが証明された。
このフレームワークは6つの多様なベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2021-10-23T09:43:36Z) - CAMERAS: Enhanced Resolution And Sanity preserving Class Activation
Mapping for image saliency [61.40511574314069]
バックプロパゲーション画像のサリエンシは、入力中の個々のピクセルのモデル中心の重要性を推定することにより、モデル予測を説明することを目的としている。
CAMERASは、外部の事前処理を必要とせずに、高忠実度バックプロパゲーション・サリエンシ・マップを計算できる手法である。
論文 参考訳(メタデータ) (2021-06-20T08:20:56Z) - Coordinate Attention for Efficient Mobile Network Design [96.40415345942186]
チャネルの注目に位置情報を埋め込むことにより,モバイルネットワークに対する新たな注意メカニズムを提案する。
2次元グローバルプーリングにより特徴テンソルを単一特徴ベクトルに変換するチャネルアテンションとは異なり、座標アテンションはチャネルアテンションを2つの1次元特徴符号化プロセスに分解する。
座標の注意はImageNetの分類に有用であり、オブジェクト検出やセマンティックセグメンテーションといった下流タスクではよりうまく振る舞う。
論文 参考訳(メタデータ) (2021-03-04T09:18:02Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。