論文の概要: Sparse Spatial Transformers for Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2109.12932v1
- Date: Mon, 27 Sep 2021 10:36:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 01:26:28.237914
- Title: Sparse Spatial Transformers for Few-Shot Learning
- Title(参考訳): ファウショット学習のためのスパース空間変換器
- Authors: Haoxing Chen and Huaxiong Li and Yaohui Li and Chunlin Chen
- Abstract要約: 我々はスパース空間変換器(SSFormers)と呼ばれる新しいトランスフォーマーベースのニューラルネットワークアーキテクチャを提案する。
SSFormerはタスク関連機能を見つけ、タスク関連機能を抑制することができる。
本手法は最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 5.861206243996454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from limited data is a challenging task since the scarcity of data
leads to a poor generalization of the trained model. The classical global
pooled representation is likely to lose useful local information. Recently,
many few shot learning methods address this challenge by using deep descriptors
and learning a pixel-level metric. However, using deep descriptors as feature
representations may lose the contextual information of the image. And most of
these methods deal with each class in the support set independently, which
cannot sufficiently utilize discriminative information and task-specific
embeddings. In this paper, we propose a novel Transformer based neural network
architecture called Sparse Spatial Transformers (SSFormers), which can find
task-relevant features and suppress task-irrelevant features. Specifically, we
first divide each input image into several image patches of different sizes to
obtain dense local features. These features retain contextual information while
expressing local information. Then, a sparse spatial transformer layer is
proposed to find spatial correspondence between the query image and the entire
support set to select task-relevant image patches and suppress task-irrelevant
image patches. Finally, we propose an image patch matching module to calculate
the distance between dense local representations to determine which category
the query image belongs to in the support set. Extensive experiments on popular
few-shot learning benchmarks show that our method achieves the state-of-the-art
performance. Our code is available at
\url{https://github.com/chenhaoxing/SSFormers}.
- Abstract(参考訳): 限られたデータから学ぶことは、データの不足がトレーニングされたモデルの一般化を損なうため、難しい課題である。
古典的なグローバルプール表現は、有用なローカル情報を失う可能性が高い。
近年,深層記述子を用いてピクセルレベルのメトリクスを学習することで,この課題に対処するショットラーニング手法は少ない。
しかし、機能表現としてDeep Descriptorを使用すると、画像のコンテキスト情報が失われる可能性がある。
これらのメソッドのほとんどは、個別に設定されたサポートセットの各クラスを扱うため、識別情報やタスク固有の埋め込みを十分に活用することはできない。
本稿では,Sparse Spatial Transformers (SSFormers) と呼ばれる,トランスフォーマーをベースとした新しいニューラルネットワークアーキテクチャを提案する。
具体的には,まず各入力画像を異なるサイズの複数の画像パッチに分割し,局所的特徴の密集化を図る。
これらの特徴は、ローカル情報を表現しながらコンテキスト情報を保持する。
そこで,タスク関連画像パッチを選択し,タスク関連画像パッチを抑えるために,クエリ画像とサポートセット全体の空間対応を見つけるために,スパース空間トランスフォーマー層を提案する。
最後に,問合せ画像がどのカテゴリに属するかを決定するために,濃密な局所表現間の距離を計算するイメージパッチマッチングモジュールを提案する。
一般的な数ショット学習ベンチマークの大規模な実験により,本手法が最先端の性能を達成することを示す。
私たちのコードは \url{https://github.com/chenhaoxing/SSFormers} で利用可能です。
関連論文リスト
- Learnable Prompt for Few-Shot Semantic Segmentation in Remote Sensing Domain [0.0]
Few-shotセグメンテーション(Few-shot segmentation)は、いくつかのアノテーション付きの例だけを与えられた画像内でオブジェクトや新しいクラスの領域を分割するタスクである。
私たちはベースモデルとしてSegGPTを使用し、ベースクラスでそれをトレーニングします。
通常リモートセンシング領域に存在する様々なオブジェクトサイズを扱うために、パッチベースの予測を行う。
論文 参考訳(メタデータ) (2024-04-16T06:33:08Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - TopicFM: Robust and Interpretable Feature Matching with Topic-assisted [8.314830611853168]
本稿では,効率,堅牢,解釈可能な画像マッチングアーキテクチャを提案する。
TopicFMと呼ばれる新しい特徴マッチングモジュールを導入し、画像間で同じ空間構造をトピックに大まかに整理する。
提案手法は,計算量を削減するために,共可視領域でのみマッチングを行うことができる。
論文 参考訳(メタデータ) (2022-07-01T10:39:14Z) - Rethinking Generalization in Few-Shot Classification [28.809141478504532]
単一のイメージレベルのアノテーションは、しばしば画像の内容の小さなサブセットを正しく記述するだけである。
本稿では、textitfew-shot Learning$の文脈における意味を詳しく調べる。
我々は、きめ細かいラベルの欠如を克服するため、マスク付き画像モデリングによるネットワークの教師なしトレーニングの最近の進歩の上に構築する。
論文 参考訳(メタデータ) (2022-06-15T03:05:21Z) - Local and Global GANs with Semantic-Aware Upsampling for Image
Generation [201.39323496042527]
ローカルコンテキストを用いて画像を生成することを検討する。
セマンティックマップをガイダンスとして用いたクラス固有の生成ネットワークを提案する。
最後に,セマンティック・アウェア・アップサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T19:24:25Z) - Maximize the Exploration of Congeneric Semantics for Weakly Supervised
Semantic Segmentation [27.155133686127474]
グラフニューラルネットワーク(P-GNN)を,同一のクラスラベルを含む異なる画像からの自己検出パッチに基づいて構築する。
PASCAL VOC 2012ベンチマークで実験を行い、そのモデルにより最先端の性能が得られた。
論文 参考訳(メタデータ) (2021-10-08T08:59:16Z) - One-Shot Image Classification by Learning to Restore Prototypes [11.448423413463916]
ワンショット画像分類は、カテゴリ毎に1つの画像しか持たないデータセット上で、イメージ分類器を訓練することを目的としている。
ワンショット学習では、既存のメトリック学習アプローチは、単一のトレーニングイメージがクラスを代表するものではない可能性があるため、パフォーマンスが低下する。
本稿では,RestoreNet で表される単純な回帰モデルを提案する。画像特徴のクラス変換を学習し,特徴空間のクラス中心に画像を移動させる。
論文 参考訳(メタデータ) (2020-05-04T02:11:30Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。