論文の概要: All the attention you need: Global-local, spatial-channel attention for
image retrieval
- arxiv url: http://arxiv.org/abs/2107.08000v1
- Date: Fri, 16 Jul 2021 16:39:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-19 14:37:55.977386
- Title: All the attention you need: Global-local, spatial-channel attention for
image retrieval
- Title(参考訳): 必要なすべての注意:画像検索のためのグローバルローカル、空間チャネルの注意
- Authors: Chull Hwan Song, Hye Joo Han, Yannis Avrithis
- Abstract要約: 大規模インスタンスレベルの画像検索のための表現学習に対処する。
バックボーンネットワークの端に付加されるグローバルローカルアテンションモジュール(GLAM)について述べる。
我々は,特徴テンソルを新たに獲得し,空間プーリングにより画像検索のための強力な埋め込みを学習する。
- 参考スコア(独自算出の注目度): 11.150896867058902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address representation learning for large-scale instance-level image
retrieval. Apart from backbone, training pipelines and loss functions, popular
approaches have focused on different spatial pooling and attention mechanisms,
which are at the core of learning a powerful global image representation. There
are different forms of attention according to the interaction of elements of
the feature tensor (local and global) and the dimensions where it is applied
(spatial and channel). Unfortunately, each study addresses only one or two
forms of attention and applies it to different problems like classification,
detection or retrieval.
We present global-local attention module (GLAM), which is attached at the end
of a backbone network and incorporates all four forms of attention: local and
global, spatial and channel. We obtain a new feature tensor and, by spatial
pooling, we learn a powerful embedding for image retrieval. Focusing on global
descriptors, we provide empirical evidence of the interaction of all forms of
attention and improve the state of the art on standard benchmarks.
- Abstract(参考訳): 大規模インスタンスレベルの画像検索のための表現学習に対処する。
バックボーン、トレーニングパイプライン、損失関数とは別に、一般的なアプローチは、強力なグローバルイメージ表現の学習の核となる、異なる空間プーリングとアテンションメカニズムに焦点を当てている。
特徴テンソル(局所的および大域的)要素とそれが適用される次元(空間的およびチャネル的)との相互作用により、異なる形式の注意が向けられる。
残念なことに、それぞれの研究は1つか2つの注意を向け、分類、検出、検索といった異なる問題に適用している。
バックボーンネットワークの終端に設けたグローバルローカルアテンションモジュール(GLAM)について,局所的,グローバル的,空間的,チャネル的な4種類のアテンションを組み込んだアテンションモジュールを提案する。
我々は特徴テンソルを新たに獲得し,空間プーリングにより画像検索のための強力な埋め込みを学習する。
グローバルディスクリプタに着目し,あらゆる形式の注意の相互作用の実証的証拠を提供し,標準ベンチマークにおける技術の現状を改善する。
関連論文リスト
- Local-Aware Global Attention Network for Person Re-Identification Based on Body and Hand Images [0.0]
本稿では,身体画像と手動画像の両面から,人物Re-Idに対するエンドツーエンドの識別的深層特徴学習のための複合的アプローチを提案する。
提案手法は既存の最先端手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2022-09-11T09:43:42Z) - Dual Cross-Attention Learning for Fine-Grained Visual Categorization and
Object Re-Identification [19.957957963417414]
本稿では,自己意図学習と協調する2つのクロスアテンション学習(DCAL)アルゴリズムを提案する。
まず,グローバル・ローカル・クロスアテンション(GLCA)を提案する。
第2に、画像ペア間の相互作用を確立するために、ペアワイズ・クロスアテンション(PWCA)を提案する。
論文 参考訳(メタデータ) (2022-05-04T16:14:26Z) - L2G: A Simple Local-to-Global Knowledge Transfer Framework for Weakly
Supervised Semantic Segmentation [67.26984058377435]
高品質なオブジェクトアテンションマイニングのための簡易なローカル・グローバルな知識伝達フレームワークであるL2Gについて述べる。
本フレームワークは,グローバルな視点から収集したリッチオブジェクトの詳細知識をグローバルネットワークで学習する。
実験の結果,PASCAL VOC 2012とMS COCO 2014の検証セットにおいて,72.1%,44.2%のmIoU値が得られた。
論文 参考訳(メタデータ) (2022-04-07T04:31:32Z) - Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。
クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T02:25:40Z) - Implicit and Explicit Attention for Zero-Shot Learning [11.66422653137002]
ゼロショット学習(ZSL)モデルにおけるバイアス問題に対処するための暗黙的かつ明示的な注意機構を提案する。
我々は、AWA2、CUB、SUNの3つの人気のあるベンチマークで包括的な実験を行う。
論文 参考訳(メタデータ) (2021-10-02T18:06:21Z) - Discriminative Region-based Multi-Label Zero-Shot Learning [145.0952336375342]
マルチラベルゼロショット学習(Multi-label zero-shot Learning、ZSL)は、標準のシングルラベルZSLのより現実的な対位法である。
本稿では,地域別識別可能性保存型ZSLに対する代替アプローチを提案する。
論文 参考訳(メタデータ) (2021-08-20T17:56:47Z) - Multi-Branch with Attention Network for Hand-Based Person Recognition [5.162308830328819]
本稿では,犯罪捜査を目的とした手動人物認識手法を提案する。
提案手法は,マルチブランチ・アテンション・ネットワーク (MBA-Net) で,チャネル・アテンション・モジュールと空間アテンション・モジュールを併用する。
提案手法は,既存の手動識別手法を超越して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-08-04T18:25:08Z) - GAttANet: Global attention agreement for convolutional neural networks [0.0]
自然言語処理用に開発されたものと類似したトランスフォーマーアテンションアーキテクチャは、視覚でも最近効率的であることが証明された。
本稿では,標準畳み込みネットワークの性能を向上できる簡易な注意システムによる実験について報告する。
脳にインスパイアされた様々な畳み込みバックボーンのためのグローバルアテンション契約ネットワークの有用性を実証します。
論文 参考訳(メタデータ) (2021-04-12T15:45:10Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。