論文の概要: Sparse Spatial Transformers for Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2109.12932v3
- Date: Wed, 10 May 2023 01:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 18:05:23.502922
- Title: Sparse Spatial Transformers for Few-Shot Learning
- Title(参考訳): ファウショット学習のためのスパース空間変換器
- Authors: Haoxing Chen and Huaxiong Li and Yaohui Li and Chunlin Chen
- Abstract要約: 限られたデータから学ぶことは、データの不足によってトレーニングされたモデルの一般化が不十分になるため、難しい。
スパース空間トランスと呼ばれる新しいトランスを用いたニューラルネットワークアーキテクチャを提案する。
本手法はタスク関連機能を見つけ,タスク関連機能を抑制する。
- 参考スコア(独自算出の注目度): 6.271261279657655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from limited data is challenging because data scarcity leads to a
poor generalization of the trained model. A classical global pooled
representation will probably lose useful local information. Many few-shot
learning methods have recently addressed this challenge using deep descriptors
and learning a pixel-level metric. However, using deep descriptors as feature
representations may lose image contextual information. Moreover, most of these
methods independently address each class in the support set, which cannot
sufficiently use discriminative information and task-specific embeddings. In
this paper, we propose a novel transformer-based neural network architecture
called sparse spatial transformers (SSFormers), which finds task-relevant
features and suppresses task-irrelevant features. Particularly, we first divide
each input image into several image patches of different sizes to obtain dense
local features. These features retain contextual information while expressing
local information. Then, a sparse spatial transformer layer is proposed to find
spatial correspondence between the query image and the full support set to
select task-relevant image patches and suppress task-irrelevant image patches.
Finally, we propose using an image patch-matching module to calculate the
distance between dense local representations, thus determining which category
the query image belongs to in the support set. Extensive experiments on popular
few-shot learning benchmarks demonstrate the superiority of our method over
state-of-the-art methods. Our source code is available at
\url{https://github.com/chenhaoxing/ssformers}.
- Abstract(参考訳): 限られたデータから学ぶことは、データの不足がトレーニングされたモデルの一般化を損なうため、難しい。
古典的グローバルプール表現はおそらく有用なローカル情報を失うだろう。
近年,この課題に対して深層記述子を用いて画素レベルのメトリクスを学習する手法が数多く提案されている。
しかし、ディープディスクリプタを特徴表現として使うと、画像のコンテキスト情報を失う可能性がある。
さらに、これらのメソッドのほとんどは、個別にサポートセットの各クラスに対処し、判別情報とタスク固有の埋め込みを十分に使用できない。
本稿では,Sparse Space Transformers (SSFormers) と呼ばれる新しいトランスフォーマー型ニューラルネットワークアーキテクチャを提案する。
特に,各入力画像を異なる大きさの複数の画像パッチに分割し,局所的な特徴を密集させる。
これらの特徴は、ローカル情報を表現しながらコンテキスト情報を保持する。
次に,タスク関連画像パッチを選択し,タスク関連画像パッチを抑制するために,クエリ画像とフルサポートセットの空間対応を見つけるために,スパース空間トランスフォーマー層を提案する。
最後に,画像パッチマッチングモジュールを用いて局所表現間の距離を計算し,問合せ画像がどのカテゴリに属しているかを決定する。
一般的な数ショット学習ベンチマークに対する大規模な実験は、最先端の手法よりも提案手法が優れていることを示す。
ソースコードは \url{https://github.com/chenhaoxing/ssformers} で利用可能です。
関連論文リスト
- Learnable Prompt for Few-Shot Semantic Segmentation in Remote Sensing Domain [0.0]
Few-shotセグメンテーション(Few-shot segmentation)は、いくつかのアノテーション付きの例だけを与えられた画像内でオブジェクトや新しいクラスの領域を分割するタスクである。
私たちはベースモデルとしてSegGPTを使用し、ベースクラスでそれをトレーニングします。
通常リモートセンシング領域に存在する様々なオブジェクトサイズを扱うために、パッチベースの予測を行う。
論文 参考訳(メタデータ) (2024-04-16T06:33:08Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - TopicFM: Robust and Interpretable Feature Matching with Topic-assisted [8.314830611853168]
本稿では,効率,堅牢,解釈可能な画像マッチングアーキテクチャを提案する。
TopicFMと呼ばれる新しい特徴マッチングモジュールを導入し、画像間で同じ空間構造をトピックに大まかに整理する。
提案手法は,計算量を削減するために,共可視領域でのみマッチングを行うことができる。
論文 参考訳(メタデータ) (2022-07-01T10:39:14Z) - Rethinking Generalization in Few-Shot Classification [28.809141478504532]
単一のイメージレベルのアノテーションは、しばしば画像の内容の小さなサブセットを正しく記述するだけである。
本稿では、textitfew-shot Learning$の文脈における意味を詳しく調べる。
我々は、きめ細かいラベルの欠如を克服するため、マスク付き画像モデリングによるネットワークの教師なしトレーニングの最近の進歩の上に構築する。
論文 参考訳(メタデータ) (2022-06-15T03:05:21Z) - Local and Global GANs with Semantic-Aware Upsampling for Image
Generation [201.39323496042527]
ローカルコンテキストを用いて画像を生成することを検討する。
セマンティックマップをガイダンスとして用いたクラス固有の生成ネットワークを提案する。
最後に,セマンティック・アウェア・アップサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T19:24:25Z) - Maximize the Exploration of Congeneric Semantics for Weakly Supervised
Semantic Segmentation [27.155133686127474]
グラフニューラルネットワーク(P-GNN)を,同一のクラスラベルを含む異なる画像からの自己検出パッチに基づいて構築する。
PASCAL VOC 2012ベンチマークで実験を行い、そのモデルにより最先端の性能が得られた。
論文 参考訳(メタデータ) (2021-10-08T08:59:16Z) - One-Shot Image Classification by Learning to Restore Prototypes [11.448423413463916]
ワンショット画像分類は、カテゴリ毎に1つの画像しか持たないデータセット上で、イメージ分類器を訓練することを目的としている。
ワンショット学習では、既存のメトリック学習アプローチは、単一のトレーニングイメージがクラスを代表するものではない可能性があるため、パフォーマンスが低下する。
本稿では,RestoreNet で表される単純な回帰モデルを提案する。画像特徴のクラス変換を学習し,特徴空間のクラス中心に画像を移動させる。
論文 参考訳(メタデータ) (2020-05-04T02:11:30Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。