論文の概要: Dual Cross-Attention Learning for Fine-Grained Visual Categorization and
Object Re-Identification
- arxiv url: http://arxiv.org/abs/2205.02151v1
- Date: Wed, 4 May 2022 16:14:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 13:38:31.587101
- Title: Dual Cross-Attention Learning for Fine-Grained Visual Categorization and
Object Re-Identification
- Title(参考訳): 細粒度視覚分類と物体再同定のための2段階横断学習
- Authors: Haowei Zhu, Wenjing Ke, Dong Li, Ji Liu, Lu Tian, Yi Shan
- Abstract要約: 本稿では,自己意図学習と協調する2つのクロスアテンション学習(DCAL)アルゴリズムを提案する。
まず,グローバル・ローカル・クロスアテンション(GLCA)を提案する。
第2に、画像ペア間の相互作用を確立するために、ペアワイズ・クロスアテンション(PWCA)を提案する。
- 参考スコア(独自算出の注目度): 19.957957963417414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, self-attention mechanisms have shown impressive performance in
various NLP and CV tasks, which can help capture sequential characteristics and
derive global information. In this work, we explore how to extend
self-attention modules to better learn subtle feature embeddings for
recognizing fine-grained objects, e.g., different bird species or person
identities. To this end, we propose a dual cross-attention learning (DCAL)
algorithm to coordinate with self-attention learning. First, we propose
global-local cross-attention (GLCA) to enhance the interactions between global
images and local high-response regions, which can help reinforce the
spatial-wise discriminative clues for recognition. Second, we propose pair-wise
cross-attention (PWCA) to establish the interactions between image pairs. PWCA
can regularize the attention learning of an image by treating another image as
distractor and will be removed during inference. We observe that DCAL can
reduce misleading attentions and diffuse the attention response to discover
more complementary parts for recognition. We conduct extensive evaluations on
fine-grained visual categorization and object re-identification. Experiments
demonstrate that DCAL performs on par with state-of-the-art methods and
consistently improves multiple self-attention baselines, e.g., surpassing
DeiT-Tiny and ViT-Base by 2.8% and 2.4% mAP on MSMT17, respectively.
- Abstract(参考訳): 近年,多種多様なNLPおよびCVタスクにおいて自己認識機構が顕著な性能を示しており,逐次的特性を捉え,グローバルな情報を導き出すのに役立つ。
本研究では,鳥種や個体の識別など,細粒度物体を認識するための微妙な特徴埋め込みを学習するために,自己照応モジュールを拡張する方法について検討する。
そこで本研究では,自己注意学習と協調する2つの相互注意学習(DCAL)アルゴリズムを提案する。
まずグローバル・ローカル・クロスアテンション(GLCA)を提案し,グローバル・イメージとローカル・高応答領域の相互作用を強化することにより,認識のための空間的識別的手がかりを強化する。
次に、画像ペア間の相互作用を確立するために、ペアワイズ・クロスアテンション(PWCA)を提案する。
PWCAは、別の画像をイントラクタとして扱い、推論中に取り除くことにより、画像の注意学習を規則化することができる。
我々は,DCALが誤認を低減し,注意応答を拡散させ,より相補的な認識部位を発見することを観察した。
我々は,細粒度視覚分類と物体再識別に関する広範囲な評価を行う。
実験の結果、DCALは最先端の手法と同等に動作し、例えばDeiT-TinyとViT-Baseをそれぞれ2.8%、MSMT17では2.4%の自己注意ベースラインを継続的に改善している。
関連論文リスト
- Attention Overlap Is Responsible for The Entity Missing Problem in Text-to-image Diffusion Models! [3.355491272942994]
本研究では, 実体欠落問題の原因となる3つの要因について検討し, クロスアテンションダイナミクスに着目した。
実体間の注意マップの重複を減らすことは、実体の欠落率を効果的に最小化することを発見した。
論文 参考訳(メタデータ) (2024-10-28T12:43:48Z) - Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。
具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。
セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文 参考訳(メタデータ) (2024-05-06T16:31:19Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Your "Attention" Deserves Attention: A Self-Diversified Multi-Channel
Attention for Facial Action Analysis [12.544285462327839]
本稿では,ニューラルアテンションマップの表現力と集中力を高めるためのコンパクトモデルを提案する。
提案手法は,AU検出のための2つのベンチマークデータベース (BP4D, DISFA) と顔認識のための4つのデータベース (CK+, MMI, BU-3DFE, BP4D+) で評価した。
最先端の手法に比べて優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-03-23T17:29:51Z) - Counterfactual Attention Learning for Fine-Grained Visual Categorization
and Re-identification [101.49122450005869]
本稿では,因果推論に基づくより効果的な注意力学習法を提案する。
具体的には,学習した視覚的注意がネットワーク予測に与える影響を分析する。
本手法は,広範囲の粒度認識タスクにおいて評価する。
論文 参考訳(メタデータ) (2021-08-19T14:53:40Z) - Beyond Self-attention: External Attention using Two Linear Layers for
Visual Tasks [34.32609892928909]
外部注意と呼ばれる新しい注意機構を,外部的,小さく,学習可能,共有的記憶の2つに基づいて提案する。
提案手法は,自己保持機構とその変種に匹敵する性能を有し,計算コストとメモリコストを大幅に低減する。
論文 参考訳(メタデータ) (2021-05-05T22:29:52Z) - Collaborative Attention Mechanism for Multi-View Action Recognition [75.33062629093054]
本稿では,多視点行動認識問題を解決するための協調的注意機構(CAM)を提案する。
提案したCAMは,多視点間での注意差を検出し,フレームレベルの情報を適応的に統合し,相互に利益をもたらす。
4つのアクションデータセットの実験では、提案されたCAMは、ビュー毎により良い結果を得るとともに、マルチビューのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2020-09-14T17:33:10Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。