論文の概要: Enhancing Few-shot Image Classification with Cosine Transformer
- arxiv url: http://arxiv.org/abs/2211.06828v3
- Date: Fri, 21 Jul 2023 16:54:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-24 16:38:39.222797
- Title: Enhancing Few-shot Image Classification with Cosine Transformer
- Title(参考訳): Cosine Transformerを用いたFew-shot画像分類の高速化
- Authors: Quang-Huy Nguyen, Cuong Q. Nguyen, Dung D. Le, Hieu H. Pham
- Abstract要約: Few-shot Cosine Transformer (FS-CT)は、サポートとクエリ間のリレーショナルマップである。
本手法は,1ショット学習と5ショット学習におけるミニイメージネット,CUB-200,CIFAR-FSの競合結果を示す。
我々のコサインアテンションを持つFS-CTは、広範囲のアプリケーションに適用可能な軽量でシンプルな数ショットアルゴリズムである。
- 参考スコア(独自算出の注目度): 4.511561231517167
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper addresses the few-shot image classification problem, where the
classification task is performed on unlabeled query samples given a small
amount of labeled support samples only. One major challenge of the few-shot
learning problem is the large variety of object visual appearances that
prevents the support samples to represent that object comprehensively. This
might result in a significant difference between support and query samples,
therefore undermining the performance of few-shot algorithms. In this paper, we
tackle the problem by proposing Few-shot Cosine Transformer (FS-CT), where the
relational map between supports and queries is effectively obtained for the
few-shot tasks. The FS-CT consists of two parts, a learnable prototypical
embedding network to obtain categorical representations from support samples
with hard cases, and a transformer encoder to effectively achieve the
relational map from two different support and query samples. We introduce
Cosine Attention, a more robust and stable attention module that enhances the
transformer module significantly and therefore improves FS-CT performance from
5% to over 20% in accuracy compared to the default scaled dot-product
mechanism. Our method performs competitive results in mini-ImageNet, CUB-200,
and CIFAR-FS on 1-shot learning and 5-shot learning tasks across backbones and
few-shot configurations. We also developed a custom few-shot dataset for Yoga
pose recognition to demonstrate the potential of our algorithm for practical
application. Our FS-CT with cosine attention is a lightweight, simple few-shot
algorithm that can be applied for a wide range of applications, such as
healthcare, medical, and security surveillance. The official implementation
code of our Few-shot Cosine Transformer is available at
https://github.com/vinuni-vishc/Few-Shot-Cosine-Transformer
- Abstract(参考訳): 本稿では,少数のラベル付きサポートサンプルのみを指定したラベル付きクエリサンプルに対して,分類タスクを実行する,少数の画像分類問題に対処する。
少数ショット学習問題の1つの大きな課題は、サポートサンプルがそのオブジェクトを包括的に表現することを防ぐ、多種多様なオブジェクトの視覚的外観である。
これは、サポートとクエリのサンプルの間に重大な違いをもたらす可能性があるため、少数のアルゴリズムのパフォーマンスを損なうことになる。
本稿では,提案手法を用いて,サポートとクエリ間の関係マップを効果的に取得するfs-ctを提案する。
FS-CTは、ハードケースを持つサポートサンプルからカテゴリ表現を得るための学習可能なプロトタイプ埋め込みネットワークと、2つの異なるサポートとクエリサンプルからリレーショナルマップを効果的に達成するトランスフォーマーエンコーダとからなる。
より堅牢で安定した注目モジュールであるCosine Attentionを導入し、トランスフォーマーモジュールを大幅に強化し、デフォルトのスケールドドット生成機構と比較して、FS-CTの性能を5%から20%以上向上させる。
提案手法は,ミニイメージネット,CUB-200,CIFAR-FSにおいて,1ショット学習と5ショット学習タスクをバックボーンと少数ショット構成で行う。
また,本手法の実用性を示すために,ヨガポーズ認識のためのカスタムマイナショットデータセットを開発した。
当社のfs-ctとcosine attentionは,医療や医療,セキュリティ監視など,幅広いアプリケーションに適用可能な軽量でシンプルな少数ショットアルゴリズムです。
公式実装コードはhttps://github.com/vinuni-vishc/few-shot-cosine-transformerで利用可能です。
関連論文リスト
- FCC: Fully Connected Correlation for Few-Shot Segmentation [11.277022867553658]
Few-shot segmentation (FSS) は、少数のサポートイメージとマスクのみを使用して、ターゲットオブジェクトをクエリイメージにセグメントすることを目的としている。
従来の手法では, 最終層や同層の特徴に対する画素レベルの相関関係から相関写像を作成することで, 事前情報を得る方法が試みられている。
サポート機能とクエリ機能の間にピクセルレベルの相関関係を統合するためにFCC(Fully Connected correlation)を導入する。
論文 参考訳(メタデータ) (2024-11-18T03:32:02Z) - Boosting Few-Shot Segmentation via Instance-Aware Data Augmentation and
Local Consensus Guided Cross Attention [7.939095881813804]
少ないショットセグメンテーションは、注釈付き画像のみを提供する新しいタスクに迅速に適応できるセグメンテーションモデルをトレーニングすることを目的としている。
本稿では,対象オブジェクトの相対的サイズに基づいて,サポートイメージを拡大するIDA戦略を提案する。
提案したIDAは,サポートセットの多様性を効果的に向上し,サポートイメージとクエリイメージ間の分散一貫性を促進する。
論文 参考訳(メタデータ) (2024-01-18T10:29:10Z) - Advancing Image Retrieval with Few-Shot Learning and Relevance Feedback [5.770351255180495]
Image Retrieval with Relevance Feedback (IRRF) は、検索プロセス中に反復的なヒューマンインタラクションを伴う。
本稿では,タスクに適したハイパーネットワークに基づく新しいスキームを提案し,ユーザフィードバックの迅速な調整を容易にする。
提案手法は,数発の1クラス分類でSoTAを達成でき,数発のオープンセット認識のバイナリ分類タスクで同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-12-18T10:20:28Z) - Target-aware Bi-Transformer for Few-shot Segmentation [4.3753381458828695]
Few-shot semantic segmentation (FSS)は、限定ラベル付きサポートイメージを使用して、新しいクラスのオブジェクトのセグメンテーションを特定することを目的としている。
本稿では,サポート画像とクエリ画像の等価処理を行うために,TBTNet(Target-aware Bi-Transformer Network)を提案する。
TTL(Target-aware Transformer Layer)もまた、相関関係を蒸留し、モデルにフォアグラウンド情報に集中させるように設計されている。
論文 参考訳(メタデータ) (2023-09-18T05:28:51Z) - Few-Shot Learning Meets Transformer: Unified Query-Support Transformers
for Few-Shot Classification [16.757917001089762]
ほとんどショットの分類は、非常に限られたサンプルを使用して、目に見えないクラスを認識することを目的としていない。
本稿では,この2つの課題を統一的なQuery-Support TransFormerモデルにより同時にモデル化できることを示す。
4つの一般的なデータセットの実験は、提案したQSFormerの有効性と優位性を示している。
論文 参考訳(メタデータ) (2022-08-26T01:53:23Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。