Fugu-MT 論文翻訳(概要): Enhancing Few-shot Image Classification with Cosine Transformer

論文の概要: Enhancing Few-shot Image Classification with Cosine Transformer

arxiv url: http://arxiv.org/abs/2211.06828v3
Date: Fri, 21 Jul 2023 16:54:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-24 16:38:39.222797
Title: Enhancing Few-shot Image Classification with Cosine Transformer
Title（参考訳）: Cosine Transformerを用いたFew-shot画像分類の高速化
Authors: Quang-Huy Nguyen, Cuong Q. Nguyen, Dung D. Le, Hieu H. Pham
Abstract要約: Few-shot Cosine Transformer (FS-CT)は、サポートとクエリ間のリレーショナルマップである。本手法は,1ショット学習と5ショット学習におけるミニイメージネット,CUB-200,CIFAR-FSの競合結果を示す。我々のコサインアテンションを持つFS-CTは、広範囲のアプリケーションに適用可能な軽量でシンプルな数ショットアルゴリズムである。
参考スコア（独自算出の注目度）: 4.511561231517167
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper addresses the few-shot image classification problem, where the classification task is performed on unlabeled query samples given a small amount of labeled support samples only. One major challenge of the few-shot learning problem is the large variety of object visual appearances that prevents the support samples to represent that object comprehensively. This might result in a significant difference between support and query samples, therefore undermining the performance of few-shot algorithms. In this paper, we tackle the problem by proposing Few-shot Cosine Transformer (FS-CT), where the relational map between supports and queries is effectively obtained for the few-shot tasks. The FS-CT consists of two parts, a learnable prototypical embedding network to obtain categorical representations from support samples with hard cases, and a transformer encoder to effectively achieve the relational map from two different support and query samples. We introduce Cosine Attention, a more robust and stable attention module that enhances the transformer module significantly and therefore improves FS-CT performance from 5% to over 20% in accuracy compared to the default scaled dot-product mechanism. Our method performs competitive results in mini-ImageNet, CUB-200, and CIFAR-FS on 1-shot learning and 5-shot learning tasks across backbones and few-shot configurations. We also developed a custom few-shot dataset for Yoga pose recognition to demonstrate the potential of our algorithm for practical application. Our FS-CT with cosine attention is a lightweight, simple few-shot algorithm that can be applied for a wide range of applications, such as healthcare, medical, and security surveillance. The official implementation code of our Few-shot Cosine Transformer is available at https://github.com/vinuni-vishc/Few-Shot-Cosine-Transformer
Abstract（参考訳）: 本稿では,少数のラベル付きサポートサンプルのみを指定したラベル付きクエリサンプルに対して,分類タスクを実行する,少数の画像分類問題に対処する。少数ショット学習問題の1つの大きな課題は、サポートサンプルがそのオブジェクトを包括的に表現することを防ぐ、多種多様なオブジェクトの視覚的外観である。これは、サポートとクエリのサンプルの間に重大な違いをもたらす可能性があるため、少数のアルゴリズムのパフォーマンスを損なうことになる。本稿では,提案手法を用いて,サポートとクエリ間の関係マップを効果的に取得するfs-ctを提案する。 FS-CTは、ハードケースを持つサポートサンプルからカテゴリ表現を得るための学習可能なプロトタイプ埋め込みネットワークと、2つの異なるサポートとクエリサンプルからリレーショナルマップを効果的に達成するトランスフォーマーエンコーダとからなる。より堅牢で安定した注目モジュールであるCosine Attentionを導入し、トランスフォーマーモジュールを大幅に強化し、デフォルトのスケールドドット生成機構と比較して、FS-CTの性能を5%から20%以上向上させる。提案手法は,ミニイメージネット,CUB-200,CIFAR-FSにおいて,1ショット学習と5ショット学習タスクをバックボーンと少数ショット構成で行う。また,本手法の実用性を示すために,ヨガポーズ認識のためのカスタムマイナショットデータセットを開発した。当社のfs-ctとcosine attentionは,医療や医療,セキュリティ監視など,幅広いアプリケーションに適用可能な軽量でシンプルな少数ショットアルゴリズムです。公式実装コードはhttps://github.com/vinuni-vishc/few-shot-cosine-transformerで利用可能です。

関連論文リスト

Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention [59.19580789952102]
本稿では,RS画像セマンティックセグメンテーションタスクのための,新しい半教師付きマルチスケール不確かさとクロスTeacher-Student Attention(MUCA)モデルを提案する。 MUCAは、マルチスケールの不確実性整合正則化を導入することにより、ネットワークの異なる層における特徴写像間の整合性を制限する。 MUCAは学生ネットワークの誘導にクロス教師・学生の注意機構を使用し、学生ネットワークにより差別的な特徴表現を構築するよう誘導する。
論文参考訳（メタデータ） (2025-01-18T11:57:20Z)
FCC: Fully Connected Correlation for Few-Shot Segmentation [11.277022867553658]
Few-shot segmentation (FSS) は、少数のサポートイメージとマスクのみを使用して、ターゲットオブジェクトをクエリイメージにセグメントすることを目的としている。従来の手法では, 最終層や同層の特徴に対する画素レベルの相関関係から相関写像を作成することで, 事前情報を得る方法が試みられている。サポート機能とクエリ機能の間にピクセルレベルの相関関係を統合するためにFCC(Fully Connected correlation)を導入する。
論文参考訳（メタデータ） (2024-11-18T03:32:02Z)
Boosting Few-Shot Segmentation via Instance-Aware Data Augmentation and Local Consensus Guided Cross Attention [7.939095881813804]
少ないショットセグメンテーションは、注釈付き画像のみを提供する新しいタスクに迅速に適応できるセグメンテーションモデルをトレーニングすることを目的としている。本稿では,対象オブジェクトの相対的サイズに基づいて,サポートイメージを拡大するIDA戦略を提案する。提案したIDAは,サポートセットの多様性を効果的に向上し,サポートイメージとクエリイメージ間の分散一貫性を促進する。
論文参考訳（メタデータ） (2024-01-18T10:29:10Z)
Advancing Image Retrieval with Few-Shot Learning and Relevance Feedback [5.770351255180495]
Image Retrieval with Relevance Feedback (IRRF) は、検索プロセス中に反復的なヒューマンインタラクションを伴う。本稿では,タスクに適したハイパーネットワークに基づく新しいスキームを提案し,ユーザフィードバックの迅速な調整を容易にする。提案手法は,数発の1クラス分類でSoTAを達成でき,数発のオープンセット認識のバイナリ分類タスクで同等の結果が得られることを示す。
論文参考訳（メタデータ） (2023-12-18T10:20:28Z)
Target-aware Bi-Transformer for Few-shot Segmentation [4.3753381458828695]
Few-shot semantic segmentation (FSS)は、限定ラベル付きサポートイメージを使用して、新しいクラスのオブジェクトのセグメンテーションを特定することを目的としている。本稿では,サポート画像とクエリ画像の等価処理を行うために,TBTNet(Target-aware Bi-Transformer Network)を提案する。 TTL(Target-aware Transformer Layer)もまた、相関関係を蒸留し、モデルにフォアグラウンド情報に集中させるように設計されている。
論文参考訳（メタデータ） (2023-09-18T05:28:51Z)
Few-Shot Learning Meets Transformer: Unified Query-Support Transformers for Few-Shot Classification [16.757917001089762]
ほとんどショットの分類は、非常に限られたサンプルを使用して、目に見えないクラスを認識することを目的としていない。本稿では,この2つの課題を統一的なQuery-Support TransFormerモデルにより同時にモデル化できることを示す。 4つの一般的なデータセットの実験は、提案したQSFormerの有効性と優位性を示している。
論文参考訳（メタデータ） (2022-08-26T01:53:23Z)
BatchFormerV2: Exploring Sample Relationships for Dense Representation Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。 BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文参考訳（メタデータ） (2022-04-04T05:53:42Z)
A Unified Transformer Framework for Group-based Segmentation: Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。 UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文参考訳（メタデータ） (2022-03-09T13:35:19Z)
Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。 SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文参考訳（メタデータ） (2021-11-30T08:08:47Z)
Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。 FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。 MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文参考訳（メタデータ） (2020-07-18T09:48:29Z)
One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文参考訳（メタデータ） (2020-05-08T01:59:23Z)
Improving Few-shot Learning by Spatially-aware Matching and CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文参考訳（メタデータ） (2020-01-06T14:10:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。