論文の概要: Enhancing Few-shot Image Classification with Cosine Transformer
- arxiv url: http://arxiv.org/abs/2211.06828v2
- Date: Wed, 16 Nov 2022 13:43:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 15:14:25.423417
- Title: Enhancing Few-shot Image Classification with Cosine Transformer
- Title(参考訳): Cosine Transformerを用いたFew-shot画像分類の高速化
- Authors: Quang-Huy Nguyen, Cuong Q. Nguyen, Dung D. Le, Hieu H. Pham, Minh N.
Do
- Abstract要約: 埋め込みとトランスをベースとした画像分類手法FS-CT (Few-shot Cosine Transformer) を開発した。
提案したCosineアテンションにより、FS-CTの性能は5%近くから20%以上向上した。
- 参考スコア(独自算出の注目度): 13.55987625253488
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper addresses the few-shot image classification problem. One notable
limitation of few-shot learning is the variation in describing the same
category, which might result in a significant difference between small labeled
support and large unlabeled query sets. Our approach is to obtain a relation
heatmap between the two sets in order to label the latter one in a transductive
setting manner. This can be solved by using cross-attention with the scaled
dot-product mechanism. However, the magnitude differences between two separate
sets of embedding vectors may cause a significant impact on the output
attention map and affect model performance. We tackle this problem by improving
the attention mechanism with cosine similarity. Specifically, we develop FS-CT
(Few-shot Cosine Transformer), a few-shot image classification method based on
prototypical embedding and transformer-based framework. The proposed Cosine
attention improves FS-CT performances significantly from nearly 5% to over 20%
in accuracy compared to the baseline scaled dot-product attention in various
scenarios on three few-shot datasets mini-ImageNet, CUB-200, and CIFAR-FS.
Additionally, we enhance the prototypical embedding for categorical
representation with learnable weights before feeding them to the attention
module. Our proposed method FS-CT along with the Cosine attention is simple to
implement and can be applied for a wide range of applications. Our codes are
available at https://github.com/vinuni-vishc/Few-Shot-Cosine-Transformer
- Abstract(参考訳): 本稿では,少ないショット画像の分類問題に対処する。
少数ショット学習の注目すべき制限の1つは、同じカテゴリを記述する際のバリエーションであり、小さなラベル付きサポートと大きなラベル付きクエリセットとの間に大きな違いが生じる可能性がある。
提案手法は,2つの集合間の関係ヒートマップを取得し,後者をトランスダクティブな設定でラベル付けすることである。
これは、スケールしたドット生成機構によるクロスアテンションを用いて解決できる。
しかし、2つの異なる組の埋め込みベクトル間のマグニチュード差は出力注意マップに大きな影響を与え、モデル性能に影響を及ぼす可能性がある。
我々は、コサイン類似性による注意機構の改善によりこの問題に対処する。
具体的には,FS-CT(Few-shot Cosine Transformer)を開発した。
提案するコサインアテンションは,ミニイメージネット,cub-200,cifar-fsの3つのマイナショットデータセットにおいて,各種シナリオのベースラインスケールドドット製品アテンションと比較して,fs-ctの性能を5%から20%以上向上させた。
さらに,注意モジュールに与える前に,学習可能な重みでカテゴリ表現のための原型的埋め込みを強化する。
提案手法であるFS-CTとCosineの注意は実装が簡単であり,幅広い応用に適用可能である。
私たちのコードはhttps://github.com/vinuni-vishc/Few-Shot-Cosine-Transformerで利用可能です。
関連論文リスト
- FCC: Fully Connected Correlation for Few-Shot Segmentation [11.277022867553658]
Few-shot segmentation (FSS) は、少数のサポートイメージとマスクのみを使用して、ターゲットオブジェクトをクエリイメージにセグメントすることを目的としている。
従来の手法では, 最終層や同層の特徴に対する画素レベルの相関関係から相関写像を作成することで, 事前情報を得る方法が試みられている。
サポート機能とクエリ機能の間にピクセルレベルの相関関係を統合するためにFCC(Fully Connected correlation)を導入する。
論文 参考訳(メタデータ) (2024-11-18T03:32:02Z) - Boosting Few-Shot Segmentation via Instance-Aware Data Augmentation and
Local Consensus Guided Cross Attention [7.939095881813804]
少ないショットセグメンテーションは、注釈付き画像のみを提供する新しいタスクに迅速に適応できるセグメンテーションモデルをトレーニングすることを目的としている。
本稿では,対象オブジェクトの相対的サイズに基づいて,サポートイメージを拡大するIDA戦略を提案する。
提案したIDAは,サポートセットの多様性を効果的に向上し,サポートイメージとクエリイメージ間の分散一貫性を促進する。
論文 参考訳(メタデータ) (2024-01-18T10:29:10Z) - Advancing Image Retrieval with Few-Shot Learning and Relevance Feedback [5.770351255180495]
Image Retrieval with Relevance Feedback (IRRF) は、検索プロセス中に反復的なヒューマンインタラクションを伴う。
本稿では,タスクに適したハイパーネットワークに基づく新しいスキームを提案し,ユーザフィードバックの迅速な調整を容易にする。
提案手法は,数発の1クラス分類でSoTAを達成でき,数発のオープンセット認識のバイナリ分類タスクで同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-12-18T10:20:28Z) - Target-aware Bi-Transformer for Few-shot Segmentation [4.3753381458828695]
Few-shot semantic segmentation (FSS)は、限定ラベル付きサポートイメージを使用して、新しいクラスのオブジェクトのセグメンテーションを特定することを目的としている。
本稿では,サポート画像とクエリ画像の等価処理を行うために,TBTNet(Target-aware Bi-Transformer Network)を提案する。
TTL(Target-aware Transformer Layer)もまた、相関関係を蒸留し、モデルにフォアグラウンド情報に集中させるように設計されている。
論文 参考訳(メタデータ) (2023-09-18T05:28:51Z) - Few-Shot Learning Meets Transformer: Unified Query-Support Transformers
for Few-Shot Classification [16.757917001089762]
ほとんどショットの分類は、非常に限られたサンプルを使用して、目に見えないクラスを認識することを目的としていない。
本稿では,この2つの課題を統一的なQuery-Support TransFormerモデルにより同時にモデル化できることを示す。
4つの一般的なデータセットの実験は、提案したQSFormerの有効性と優位性を示している。
論文 参考訳(メタデータ) (2022-08-26T01:53:23Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。