論文の概要: Matching Feature Sets for Few-Shot Image Classification
- arxiv url: http://arxiv.org/abs/2204.00949v1
- Date: Sat, 2 Apr 2022 22:42:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 11:49:33.970459
- Title: Matching Feature Sets for Few-Shot Image Classification
- Title(参考訳): 少数ショット画像分類のためのマッチング特徴セット
- Authors: Arman Afrasiyabi, Hugo Larochelle, Jean-Fran\c{c}ois Lalonde,
Christian Gagn\'e
- Abstract要約: セットベースの表現は本質的に、ベースクラスからの画像のよりリッチな表現を構築します。
私たちのアプローチは、SetFeatと呼ばれ、既存のエンコーダアーキテクチャに浅い自己アテンションメカニズムを組み込んでいます。
- 参考スコア(独自算出の注目度): 22.84472344406448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In image classification, it is common practice to train deep networks to
extract a single feature vector per input image. Few-shot classification
methods also mostly follow this trend. In this work, we depart from this
established direction and instead propose to extract sets of feature vectors
for each image. We argue that a set-based representation intrinsically builds a
richer representation of images from the base classes, which can subsequently
better transfer to the few-shot classes. To do so, we propose to adapt existing
feature extractors to instead produce sets of feature vectors from images. Our
approach, dubbed SetFeat, embeds shallow self-attention mechanisms inside
existing encoder architectures. The attention modules are lightweight, and as
such our method results in encoders that have approximately the same number of
parameters as their original versions. During training and inference, a
set-to-set matching metric is used to perform image classification. The
effectiveness of our proposed architecture and metrics is demonstrated via
thorough experiments on standard few-shot datasets -- namely miniImageNet,
tieredImageNet, and CUB -- in both the 1- and 5-shot scenarios. In all cases
but one, our method outperforms the state-of-the-art.
- Abstract(参考訳): 画像分類では、ディープネットワークを訓練して入力画像毎に単一の特徴ベクトルを抽出するのが一般的である。
この傾向にほとんど従わない分類法もほとんどない。
本研究では、この確立した方向から離れ、各画像の特徴ベクトルの集合を抽出することを提案する。
私たちは、セットベースの表現が本質的にベースクラスからよりリッチなイメージ表現を構築していると論じる。
そこで我々は,既存の特徴抽出器を用いて画像から特徴ベクトルの集合を生成することを提案する。
このアプローチはsetfeatと呼ばれ、既存のエンコーダアーキテクチャに浅い自己着脱機構を組み込む。
注目モジュールは軽量であり,本手法により,元のバージョンとほぼ同じ数のパラメータを持つエンコーダが生成される。
トレーニングと推論の間、画像分類を行うためにセット・ツー・セットのマッチングメトリックが使用される。
提案したアーキテクチャとメトリクスの有効性は,標準の少ショットデータセット(miniImageNet, tieredImageNet, CUB)を1ショットと5ショットの両方のシナリオで徹底的に実験することで実証される。
いずれにしても、我々の手法は最先端の手法よりも優れている。
関連論文リスト
- Learning to Adapt Category Consistent Meta-Feature of CLIP for Few-Shot Classification [1.6385815610837167]
最近のCLIPに基づく手法では、画像分類タスクにおいてゼロショットと少数ショットのパフォーマンスが期待できる。
LRと高レベルセマンティック表現の相補的な長所を組み合わせたメタ機能適応法(MF-Adapter)を提案する。
提案手法は,最先端のCLIP下流数ショット分類法よりも優れており,難易度の高い視覚的分類課題に対して高い性能を示す。
論文 参考訳(メタデータ) (2024-07-08T06:18:04Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - Unicom: Universal and Compact Representation Learning for Image
Retrieval [65.96296089560421]
大規模LAION400Mを,CLIPモデルにより抽出された共同テキストと視覚的特徴に基づいて,100万の擬似クラスにクラスタリングする。
このような矛盾を緩和するために、我々は、マージンベースのソフトマックス損失を構築するために、ランダムにクラス間の部分的なプロトタイプを選択する。
提案手法は,複数のベンチマークにおいて,教師なし,教師なしの画像検索手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-12T14:25:52Z) - Disambiguation of One-Shot Visual Classification Tasks: A Simplex-Based
Approach [8.436437583394998]
本稿では,複数の物体の存在を検出するための戦略を提案する。
この戦略は、高次元空間における単純体の角を識別することに基づいている。
提案手法は,極端設定における精度をわずかながら統計的に向上させる能力を示す。
論文 参考訳(メタデータ) (2023-01-16T11:37:05Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - Improving Few-shot Learning with Weakly-supervised Object Localization [24.3569501375842]
画像のクラス関連領域から特徴を抽出してクラス表現を生成する新しいフレームワークを提案する。
提案手法は, miniImageNet および tieredImageNet ベンチマークにおいて,ベースライン数ショットモデルよりも優れている。
論文 参考訳(メタデータ) (2021-05-25T07:39:32Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z) - Few-shot Image Classification: Just Use a Library of Pre-trained Feature
Extractors and a Simple Classifier [5.782827425991282]
L2レギュラライザで学習した単純なフィードフォワードネットワークと事前訓練された機能抽出器のライブラリは、クロスドメインの少数画像分類を解決するための優れた選択肢であることを示す。
実験結果から, この単純なサンプル効率のアプローチは, 様々なタスクにおいて, 確立されたメタ学習アルゴリズムよりも優れていることが示唆された。
論文 参考訳(メタデータ) (2021-01-03T05:30:36Z) - One-Shot Image Classification by Learning to Restore Prototypes [11.448423413463916]
ワンショット画像分類は、カテゴリ毎に1つの画像しか持たないデータセット上で、イメージ分類器を訓練することを目的としている。
ワンショット学習では、既存のメトリック学習アプローチは、単一のトレーニングイメージがクラスを代表するものではない可能性があるため、パフォーマンスが低下する。
本稿では,RestoreNet で表される単純な回帰モデルを提案する。画像特徴のクラス変換を学習し,特徴空間のクラス中心に画像を移動させる。
論文 参考訳(メタデータ) (2020-05-04T02:11:30Z) - Cross-Domain Few-Shot Classification via Learned Feature-Wise
Transformation [109.89213619785676]
各クラスにラベル付き画像がほとんどない新しいカテゴリを識別することを目的としている。
既存のメトリックベースの数ショット分類アルゴリズムは、クエリ画像の特徴埋め込みとラベル付き画像の特徴埋め込みを比較して、カテゴリを予測する。
有望な性能が証明されているが、これらの手法は目に見えない領域に一般化できないことが多い。
論文 参考訳(メタデータ) (2020-01-23T18:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。