論文の概要: SpatialFormer: Semantic and Target Aware Attentions for Few-Shot
Learning
- arxiv url: http://arxiv.org/abs/2303.09281v1
- Date: Wed, 15 Mar 2023 08:31:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 15:30:43.614704
- Title: SpatialFormer: Semantic and Target Aware Attentions for Few-Shot
Learning
- Title(参考訳): SpaceFormer:Few-Shot Learningのためのセマンティックおよびターゲットアウェアアテンション
- Authors: Jinxiang Lai, Siqian Yang, Wenlong Wu, Tao Wu, Guannan Jiang, Xi Wang,
Jun Liu, Bin-Bin Gao, Wei Zhang, Yuan Xie, Chengjie Wang
- Abstract要約: CNN構造は、局所的な特徴に基づいて不正確な注意マップを生成し、相互に類似した背景が気晴らしを引き起こす。
我々は,グローバルな特徴に基づいてより正確な注意領域を生成するために,新しいSpatialFormer構造を設計する。
提案手法は実効性があり, 数発の分類ベンチマークにおいて, 最新の結果が得られる。
- 参考スコア(独自算出の注目度): 28.259957162455393
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent Few-Shot Learning (FSL) methods put emphasis on generating a
discriminative embedding features to precisely measure the similarity between
support and query sets. Current CNN-based cross-attention approaches generate
discriminative representations via enhancing the mutually semantic similar
regions of support and query pairs. However, it suffers from two problems: CNN
structure produces inaccurate attention map based on local features, and
mutually similar backgrounds cause distraction. To alleviate these problems, we
design a novel SpatialFormer structure to generate more accurate attention
regions based on global features. Different from the traditional Transformer
modeling intrinsic instance-level similarity which causes accuracy degradation
in FSL, our SpatialFormer explores the semantic-level similarity between pair
inputs to boost the performance. Then we derive two specific attention modules,
named SpatialFormer Semantic Attention (SFSA) and SpatialFormer Target
Attention (SFTA), to enhance the target object regions while reduce the
background distraction. Particularly, SFSA highlights the regions with same
semantic information between pair features, and SFTA finds potential foreground
object regions of novel feature that are similar to base categories. Extensive
experiments show that our methods are effective and achieve new
state-of-the-art results on few-shot classification benchmarks.
- Abstract(参考訳): 最近のFSL(Few-Shot Learning)手法は,サポートセットとクエリセットの類似性を正確に測定するために,識別的埋め込み機能の生成に重点を置いている。
現在のCNNベースのクロスアテンションアプローチは、サポートとクエリペアの相互意味的な類似領域を強化することによって差別表現を生成する。
しかし、CNN構造は局所的な特徴に基づいて不正確な注意マップを生成し、相互に類似した背景が混乱を引き起こす。
これらの問題を解決するために,より正確な注意領域を生成する新しい空間フォーマ構造を設計した。
従来のTransformerモデリングのインスタンスレベルの類似性とは違い、SpatialFormerでは、ペア入力間のセマンティックレベルの類似性を調べてパフォーマンスを向上させる。
次に,SpatialFormer Semantic Attention (SFSA) とSpatialFormer Target Attention (SFTA) という2つの特定の注意モジュールを導出し,背景の歪みを低減しつつ対象領域を拡大する。
特に、SFSAは、ペア特徴間の同じ意味情報を持つ領域を強調し、SFTAは、ベースカテゴリに類似した新しい特徴の潜在的前景オブジェクト領域を見つける。
広範な実験により,本手法は実効性を示し,マイトショット分類ベンチマークで最新の結果を得ることができた。
関連論文リスト
- ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - EIANet: A Novel Domain Adaptation Approach to Maximize Class Distinction with Neural Collapse Principles [15.19374752514876]
ソースフリードメイン適応(SFDA)は、ラベル付きソースドメインから未ラベルのターゲットドメインに知識を転送することを目的としている。
SFDAにおける大きな課題は、ターゲットドメインの正確な分類情報を導き出すことである。
クラスプロトタイプを分離するための新しいETF-Informed Attention Network(EIANet)を導入する。
論文 参考訳(メタデータ) (2024-07-23T05:31:05Z) - Pulling Target to Source: A New Perspective on Domain Adaptive Semantic Segmentation [80.1412989006262]
ドメイン適応セマンティックセグメンテーションは、ラベル付きソースドメインからラベルなしターゲットドメインに知識を転送することを目的としています。
我々はT2S-DAを提案し、T2S-DAはドメイン適応のためのソースにターゲットを引っ張る形式として解釈する。
論文 参考訳(メタデータ) (2023-05-23T07:09:09Z) - Semantic Feature Integration network for Fine-grained Visual
Classification [5.182627302449368]
本稿では,これらの課題に対処するためにセマンティック・フィーチャー・インテグレーション・ネットワーク(SFI-Net)を提案する。
不要な特徴を排除し、識別的特徴間の意味関係を再構築することにより、SFI-Netは満足な性能を実現した。
論文 参考訳(メタデータ) (2023-02-13T07:32:25Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - Discriminative Region-based Multi-Label Zero-Shot Learning [145.0952336375342]
マルチラベルゼロショット学習(Multi-label zero-shot Learning、ZSL)は、標準のシングルラベルZSLのより現実的な対位法である。
本稿では,地域別識別可能性保存型ZSLに対する代替アプローチを提案する。
論文 参考訳(メタデータ) (2021-08-20T17:56:47Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z) - Context-aware Attentional Pooling (CAP) for Fine-grained Visual
Classification [2.963101656293054]
深層畳み込みニューラルネットワーク(CNN)は、画像認識のための識別対象ポーズと部品情報をマイニングする強力な能力を示しています。
サブピクセル勾配による微妙な変化を効果的にとらえる新しいコンテキスト認識型注意プーリング(CAP)を提案する。
我々は6つの最先端(SotA)バックボーンネットワークと8つのベンチマークデータセットを用いてアプローチを評価した。
論文 参考訳(メタデータ) (2021-01-17T10:15:02Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。