論文の概要: Few-Shot Learning Meets Transformer: Unified Query-Support Transformers
for Few-Shot Classification
- arxiv url: http://arxiv.org/abs/2208.12398v1
- Date: Fri, 26 Aug 2022 01:53:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 13:01:54.960937
- Title: Few-Shot Learning Meets Transformer: Unified Query-Support Transformers
for Few-Shot Classification
- Title(参考訳): Few-Shot Learning Meets Transformer: Unified Query-Support Transformer for Few-Shot Classification
- Authors: Xixi Wang, Xiao Wang, Bo Jiang, Bin Luo
- Abstract要約: ほとんどショットの分類は、非常に限られたサンプルを使用して、目に見えないクラスを認識することを目的としていない。
本稿では,この2つの課題を統一的なQuery-Support TransFormerモデルにより同時にモデル化できることを示す。
4つの一般的なデータセットの実験は、提案したQSFormerの有効性と優位性を示している。
- 参考スコア(独自算出の注目度): 16.757917001089762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot classification which aims to recognize unseen classes using very
limited samples has attracted more and more attention. Usually, it is
formulated as a metric learning problem. The core issue of few-shot
classification is how to learn (1) consistent representations for images in
both support and query sets and (2) effective metric learning for images
between support and query sets. In this paper, we show that the two challenges
can be well modeled simultaneously via a unified Query-Support TransFormer
(QSFormer) model. To be specific,the proposed QSFormer involves global
query-support sample Transformer (sampleFormer) branch and local patch
Transformer (patchFormer) learning branch. sampleFormer aims to capture the
dependence of samples in support and query sets for image representation. It
adopts the Encoder, Decoder and Cross-Attention to respectively model the
Support, Query (image) representation and Metric learning for few-shot
classification task. Also, as a complementary to global learning branch, we
adopt a local patch Transformer to extract structural representation for each
image sample by capturing the long-range dependence of local image patches. In
addition, a novel Cross-scale Interactive Feature Extractor (CIFE) is proposed
to extract and fuse multi-scale CNN features as an effective backbone module
for the proposed few-shot learning method. All modules are integrated into a
unified framework and trained in an end-to-end manner. Extensive experiments on
four popular datasets demonstrate the effectiveness and superiority of the
proposed QSFormer.
- Abstract(参考訳): 非常に限られたサンプルを用いて未確認のクラスを識別することを目的とした画像分類が注目されている。
通常、メートル法学習問題として定式化される。
本研究の主な課題は,(1)サポートセットとクエリセット間の画像の一貫性のある表現,(2)サポートセットとクエリセット間の画像の効果的なメトリック学習の学習方法である。
本稿では,統一クエリ支援トランスフォーマ(qsformer)モデルを用いて,この2つの課題を同時にモデル化できることを示す。
具体的には、QSFormerはグローバルクエリをサポートするサンプルTransformer(sampleFormer)ブランチとローカルパッチTransformer(patchFormer)学習ブランチを含む。
sampleformerは、サポート中のサンプルと画像表現のためのクエリセットの依存性をキャプチャすることを目的としている。
これはEncoder、Decoder、Cross-Attentionを採用し、数ショットの分類タスクでそれぞれサポート、クエリ(イメージ)表現、メトリック学習をモデル化する。
また,グローバル・ラーニング・ブランチの補完として,ローカル・パッチ・トランスフォーマーを採用し,ローカル・イメージ・パッチの長距離依存性を捉え,各画像サンプルの構造的表現を抽出する。
また,提案手法の有効なバックボーンモジュールとして,マルチスケールcnn機能を抽出・融合するために,新しいクロススケールインタラクティブ特徴抽出器(cife)を提案する。
すべてのモジュールは統一されたフレームワークに統合され、エンドツーエンドでトレーニングされる。
4つの一般的なデータセットに対する大規模な実験は、提案したQSFormerの有効性と優位性を示している。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Few-shot Medical Image Segmentation via Cross-Reference Transformer [3.2634122554914]
Few-shot segmentation(FSS)は、少数のラベル付きサンプルから新しいカテゴリを学習することで、これらの課題に対処する可能性がある。
そこで本研究では,クロス参照変換器を用いた画像分割ネットワークを提案する。
実験の結果,CTデータセットとMRIデータセットの両方で良好な結果が得られた。
論文 参考訳(メタデータ) (2023-04-19T13:05:18Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Enhancing Few-shot Image Classification with Cosine Transformer [4.511561231517167]
Few-shot Cosine Transformer (FS-CT)は、サポートとクエリ間のリレーショナルマップである。
本手法は,1ショット学習と5ショット学習におけるミニイメージネット,CUB-200,CIFAR-FSの競合結果を示す。
我々のコサインアテンションを持つFS-CTは、広範囲のアプリケーションに適用可能な軽量でシンプルな数ショットアルゴリズムである。
論文 参考訳(メタデータ) (2022-11-13T06:03:28Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - CAD: Co-Adapting Discriminative Features for Improved Few-Shot
Classification [11.894289991529496]
少数のラベル付きサンプルを与えられた未確認のクラスに適応できるモデルを学ぶことを目的としている。
最近のアプローチでは、特徴抽出器を事前訓練し、その後、エピソードなメタラーニングのための微調整を行う。
本研究は, 複数ショットの分類において, 横断的および再重み付き識別機能を実現するための戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T06:14:51Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - A Hierarchical Transformation-Discriminating Generative Model for Few
Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。
この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文 参考訳(メタデータ) (2021-04-29T17:49:48Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。