論文の概要: Sparse Spatial Transformers for Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2109.12932v3
- Date: Wed, 10 May 2023 01:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 18:05:23.502922
- Title: Sparse Spatial Transformers for Few-Shot Learning
- Title(参考訳): ファウショット学習のためのスパース空間変換器
- Authors: Haoxing Chen and Huaxiong Li and Yaohui Li and Chunlin Chen
- Abstract要約: 限られたデータから学ぶことは、データの不足によってトレーニングされたモデルの一般化が不十分になるため、難しい。
スパース空間トランスと呼ばれる新しいトランスを用いたニューラルネットワークアーキテクチャを提案する。
本手法はタスク関連機能を見つけ,タスク関連機能を抑制する。
- 参考スコア(独自算出の注目度): 6.271261279657655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from limited data is challenging because data scarcity leads to a
poor generalization of the trained model. A classical global pooled
representation will probably lose useful local information. Many few-shot
learning methods have recently addressed this challenge using deep descriptors
and learning a pixel-level metric. However, using deep descriptors as feature
representations may lose image contextual information. Moreover, most of these
methods independently address each class in the support set, which cannot
sufficiently use discriminative information and task-specific embeddings. In
this paper, we propose a novel transformer-based neural network architecture
called sparse spatial transformers (SSFormers), which finds task-relevant
features and suppresses task-irrelevant features. Particularly, we first divide
each input image into several image patches of different sizes to obtain dense
local features. These features retain contextual information while expressing
local information. Then, a sparse spatial transformer layer is proposed to find
spatial correspondence between the query image and the full support set to
select task-relevant image patches and suppress task-irrelevant image patches.
Finally, we propose using an image patch-matching module to calculate the
distance between dense local representations, thus determining which category
the query image belongs to in the support set. Extensive experiments on popular
few-shot learning benchmarks demonstrate the superiority of our method over
state-of-the-art methods. Our source code is available at
\url{https://github.com/chenhaoxing/ssformers}.
- Abstract(参考訳): 限られたデータから学ぶことは、データの不足がトレーニングされたモデルの一般化を損なうため、難しい。
古典的グローバルプール表現はおそらく有用なローカル情報を失うだろう。
近年,この課題に対して深層記述子を用いて画素レベルのメトリクスを学習する手法が数多く提案されている。
しかし、ディープディスクリプタを特徴表現として使うと、画像のコンテキスト情報を失う可能性がある。
さらに、これらのメソッドのほとんどは、個別にサポートセットの各クラスに対処し、判別情報とタスク固有の埋め込みを十分に使用できない。
本稿では,Sparse Space Transformers (SSFormers) と呼ばれる新しいトランスフォーマー型ニューラルネットワークアーキテクチャを提案する。
特に,各入力画像を異なる大きさの複数の画像パッチに分割し,局所的な特徴を密集させる。
これらの特徴は、ローカル情報を表現しながらコンテキスト情報を保持する。
次に,タスク関連画像パッチを選択し,タスク関連画像パッチを抑制するために,クエリ画像とフルサポートセットの空間対応を見つけるために,スパース空間トランスフォーマー層を提案する。
最後に,画像パッチマッチングモジュールを用いて局所表現間の距離を計算し,問合せ画像がどのカテゴリに属しているかを決定する。
一般的な数ショット学習ベンチマークに対する大規模な実験は、最先端の手法よりも提案手法が優れていることを示す。
ソースコードは \url{https://github.com/chenhaoxing/ssformers} で利用可能です。
関連論文リスト
- CricaVPR: Cross-image Correlation-aware Representation Learning for
Visual Place Recognition [77.89584556347509]
視覚的位置認識(VPR)のための画像間相関認識を用いたロバストなグローバル表現法を提案する。
提案手法はPitts30k上の94.5%のR@1を512dimのグローバルな特徴を用いて達成する。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Multi-spectral Class Center Network for Face Manipulation Detection and
Localization [54.89350610668392]
本稿では、ピクセルレベルのアノテーションを導入してFaceForensics++データセットを再構築し、改ざんした領域をローカライズするための広範なベンチマークを構築する。
次に,顔の操作検出と局所化のために,MSCCNet(Multi-Spectral Class Center Network)を提案する。
論文 参考訳(メタデータ) (2023-05-18T08:09:20Z) - Query Semantic Reconstruction for Background in Few-Shot Segmentation [0.0]
Few-shot segmentation (FSS) は、いくつかのアノテーション付きサンプルを使用して、目に見えないクラスをセグメントすることを目的としている。
いくつかのFSSメソッドは、サポートイメージの背景を使用して、クエリイメージの背景を特定することでこの問題に対処しようとする。
本稿では,クエリ画像自体から背景を抽出するQSRを提案する。
論文 参考訳(メタデータ) (2022-10-21T15:49:16Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - TopicFM: Robust and Interpretable Feature Matching with Topic-assisted [8.314830611853168]
本稿では,効率,堅牢,解釈可能な画像マッチングアーキテクチャを提案する。
TopicFMと呼ばれる新しい特徴マッチングモジュールを導入し、画像間で同じ空間構造をトピックに大まかに整理する。
提案手法は,計算量を削減するために,共可視領域でのみマッチングを行うことができる。
論文 参考訳(メタデータ) (2022-07-01T10:39:14Z) - Rethinking Generalization in Few-Shot Classification [28.809141478504532]
単一のイメージレベルのアノテーションは、しばしば画像の内容の小さなサブセットを正しく記述するだけである。
本稿では、textitfew-shot Learning$の文脈における意味を詳しく調べる。
我々は、きめ細かいラベルの欠如を克服するため、マスク付き画像モデリングによるネットワークの教師なしトレーニングの最近の進歩の上に構築する。
論文 参考訳(メタデータ) (2022-06-15T03:05:21Z) - Local and Global GANs with Semantic-Aware Upsampling for Image
Generation [201.39323496042527]
ローカルコンテキストを用いて画像を生成することを検討する。
セマンティックマップをガイダンスとして用いたクラス固有の生成ネットワークを提案する。
最後に,セマンティック・アウェア・アップサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T19:24:25Z) - Maximize the Exploration of Congeneric Semantics for Weakly Supervised
Semantic Segmentation [27.155133686127474]
グラフニューラルネットワーク(P-GNN)を,同一のクラスラベルを含む異なる画像からの自己検出パッチに基づいて構築する。
PASCAL VOC 2012ベンチマークで実験を行い、そのモデルにより最先端の性能が得られた。
論文 参考訳(メタデータ) (2021-10-08T08:59:16Z) - One-Shot Image Classification by Learning to Restore Prototypes [11.448423413463916]
ワンショット画像分類は、カテゴリ毎に1つの画像しか持たないデータセット上で、イメージ分類器を訓練することを目的としている。
ワンショット学習では、既存のメトリック学習アプローチは、単一のトレーニングイメージがクラスを代表するものではない可能性があるため、パフォーマンスが低下する。
本稿では,RestoreNet で表される単純な回帰モデルを提案する。画像特徴のクラス変換を学習し,特徴空間のクラス中心に画像を移動させる。
論文 参考訳(メタデータ) (2020-05-04T02:11:30Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。