論文の概要: Learning to Focus: Cascaded Feature Matching Network for Few-shot Image
Recognition
- arxiv url: http://arxiv.org/abs/2101.05018v1
- Date: Wed, 13 Jan 2021 11:37:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-03 17:07:55.327082
- Title: Learning to Focus: Cascaded Feature Matching Network for Few-shot Image
Recognition
- Title(参考訳): 焦点を合わせる学習:わずかな画像認識のためのカスケード特徴マッチングネットワーク
- Authors: Mengting Chen and Xinggang Wang and Heng Luo and Yifeng Geng and Wenyu
Liu
- Abstract要約: ディープネットワークは、多数の画像でトレーニングすることで、カテゴリのオブジェクトを正確に認識することを学ぶことができる。
低ショット画像認識タスク(low-shot image recognition task)として知られるメタラーニングの課題は、1つのカテゴリの認識モデルを学ぶためにアノテーション付き画像しか利用できない場合に発生する。
この問題を解決するため,Cascaded Feature Matching Network (CFMN) と呼ばれる手法を提案する。
EmphminiImageNet と Omniglot の2つの標準データセットを用いた数ショット学習実験により,本手法の有効性が確認された。
- 参考スコア(独自算出の注目度): 38.49419948988415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep networks can learn to accurately recognize objects of a category by
training on a large number of annotated images. However, a meta-learning
challenge known as a low-shot image recognition task comes when only a few
images with annotations are available for learning a recognition model for one
category. The objects in testing/query and training/support images are likely
to be different in size, location, style, and so on. Our method, called
Cascaded Feature Matching Network (CFMN), is proposed to solve this problem. We
train the meta-learner to learn a more fine-grained and adaptive deep distance
metric by focusing more on the features that have high correlations between
compared images by the feature matching block which can align associated
features together and naturally ignore those non-discriminative features. By
applying the proposed feature matching block in different layers of the
few-shot recognition network, multi-scale information among the compared images
can be incorporated into the final cascaded matching feature, which boosts the
recognition performance further and generalizes better by learning on
relationships. The experiments for few-shot learning on two standard datasets,
\emph{mini}ImageNet and Omniglot, have confirmed the effectiveness of our
method. Besides, the multi-label few-shot task is first studied on a new data
split of COCO which further shows the superiority of the proposed feature
matching network when performing few-shot learning in complex images. The code
will be made publicly available.
- Abstract(参考訳): ディープネットワークは、多数の注釈付き画像でトレーニングすることで、カテゴリのオブジェクトを正確に認識することを学ぶことができる。
しかし、ローショット画像認識タスクとして知られるメタラーニングの課題は、あるカテゴリの認識モデルを学ぶためにアノテーション付きの少数の画像しか利用できないことである。
テスト/クエリおよびトレーニング/サポートイメージのオブジェクトは、サイズ、ロケーション、スタイルなどによって異なる可能性が高い。
提案手法はCFMN (Cascaded Feature Matching Network) と呼ばれ,この問題を解決する。
我々は,比較画像間の相関度が高い特徴に着目し,それらの特徴を整合させ,非識別的特徴を自然に無視できる特徴マッチングブロックを用いて,メタリーナーを訓練し,より細粒度で適応的な深層距離計測法を学ぶ。
提案する特徴マッチングブロックをマイナショット認識ネットワークの異なる層に適用することにより、比較画像間のマルチスケール情報を最終カスケードマッチング機能に組み込むことができ、認識性能をさらに高め、関係を学習することでより一般化することができる。
2つの標準データセットである \emph{mini}imagenet と omniglot を用いた短時間学習実験を行い,本手法の有効性を確認した。
さらに,複数ラベルのマイトショットタスクをまずcocoの新たなデータ分割について検討し,複雑な画像でマイトショット学習を行う際に,提案する特徴マッチングネットワークの優位性を示す。
コードは公開される予定だ。
関連論文リスト
- Mixture of Self-Supervised Learning [2.191505742658975]
自己教師型学習は、特定のタスクに適用される前にモデル上でトレーニングされるプレテキストタスクを使用することで機能する。
従来の研究では、プリテキストタスクとして1つのタイプの変換しか使用されていなかった。
これにより、複数のプリテキストタスクが使用されているかどうか、すべてのプリテキストタスクを組み合わせるためにゲーティングネットワークを使用するかどうか、という疑問が持ち上がる。
論文 参考訳(メタデータ) (2023-07-27T14:38:32Z) - CSP: Self-Supervised Contrastive Spatial Pre-Training for
Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。
CSPは、様々なラベル付きトレーニングデータサンプリング比と10~34%の相対的な改善で、モデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-01T23:11:18Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - Learning Discriminative Representations for Multi-Label Image
Recognition [13.13795708478267]
マルチラベルタスクにおける識別的特徴を学習するための統合深層ネットワークを提案する。
ネットワーク全体を正規化することで、よく知られたResNet-101の適用性能が大幅に向上する。
論文 参考訳(メタデータ) (2021-07-23T12:10:46Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Augmented Bi-path Network for Few-shot Learning [16.353228724916505]
マルチスケールでグローバル機能とローカル機能を比較するために,Augmented Bi-path Network (ABNet)を提案する。
具体的には、各画像の局所的な特徴として、有能なパッチを抽出し、埋め込みする。その後、モデルは、より堅牢な機能を強化するために、その機能を強化することを学習する。
論文 参考訳(メタデータ) (2020-07-15T11:13:38Z) - SCAN: Learning to Classify Images without Labels [73.69513783788622]
機能学習とクラスタリングを分離する2段階のアプローチを提唱する。
表現学習からの自己教師型タスクを用いて意味論的意味のある特徴を得る。
我々は、ImageNet上で有望な結果を得、低データ体制下では、いくつかの半教師付き学習方法より優れています。
論文 参考訳(メタデータ) (2020-05-25T18:12:33Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - Learning to Compare Relation: Semantic Alignment for Few-Shot Learning [48.463122399494175]
本稿では,コンテンツアライメントに頑健な関係を比較するための新しいセマンティックアライメントモデルを提案する。
数ショットの学習データセットについて広範な実験を行う。
論文 参考訳(メタデータ) (2020-02-29T08:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。