論文の概要: Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition
- arxiv url: http://arxiv.org/abs/2107.07746v1
- Date: Fri, 16 Jul 2021 07:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-19 14:40:17.729625
- Title: Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition
- Title(参考訳): 背景のショートカット学習の具体化:Few-Shot画像認識のための共有物体濃度
- Authors: Xu Luo, Longhui Wei, Liangjian Wen, Jinrong Yang, Lingxi Xie, Zenglin
Xu, Qi Tian
- Abstract要約: Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
- 参考スコア(独自算出の注目度): 101.59989523028264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-Shot image classification aims to utilize pretrained knowledge learned
from a large-scale dataset to tackle a series of downstream classification
tasks. Typically, each task involves only few training examples from brand-new
categories. This requires the pretraining models to focus on well-generalizable
knowledge, but ignore domain-specific information. In this paper, we observe
that image background serves as a source of domain-specific knowledge, which is
a shortcut for models to learn in the source dataset, but is harmful when
adapting to brand-new classes. To prevent the model from learning this shortcut
knowledge, we propose COSOC, a novel Few-Shot Learning framework, to
automatically figure out foreground objects at both pretraining and evaluation
stage. COSOC is a two-stage algorithm motivated by the observation that
foreground objects from different images within the same class share more
similar patterns than backgrounds. At the pretraining stage, for each class, we
cluster contrastive-pretrained features of randomly cropped image patches, such
that crops containing only foreground objects can be identified by a single
cluster. We then force the pretraining model to focus on found foreground
objects by a fusion sampling strategy; at the evaluation stage, among images in
each training class of any few-shot task, we seek for shared contents and
filter out background. The recognized foreground objects of each class are used
to match foreground of testing images. Extensive experiments tailored to
inductive FSL tasks on two benchmarks demonstrate the state-of-the-art
performance of our method.
- Abstract(参考訳): Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
通常、各タスクには、新しいカテゴリのトレーニング例がほとんどない。
これにより、事前学習モデルは、よく一般化可能な知識にフォーカスするが、ドメイン固有の情報は無視する必要がある。
本稿では、画像背景がドメイン固有の知識の源であり、モデルがソースデータセットで学ぶためのショートカットであるが、新しいクラスに適応する際には有害であることを示す。
モデルがこのショートカット知識を学習するのを防ぐため,新しいFew-Shot LearningフレームワークであるCOSOCを提案し,事前学習と評価段階の両方で前景オブジェクトを自動的に抽出する。
cosocは2段階のアルゴリズムで、同じクラス内の異なる画像からのフォアグラウンドオブジェクトは背景よりも類似したパターンを共有している。
事前学習段階では,各クラスについて,前景のみを含む作物を単一クラスタで識別できるように,ランダムに切り抜かれた画像パッチのコントラストプリトレーニングされた特徴をクラスタ化する。
次に, 予備学習モデルを融合サンプリング戦略により前景オブジェクトに焦点を合わせるように強制し, 評価段階では, 実写課題の各訓練クラス内の画像の中から, 共有コンテンツを探し, 背景をフィルタリングする。
各クラスの認識された前景オブジェクトは、テスト画像の前景にマッチするために使用される。
2つのベンチマークでfslタスクをインダクティブ化するための広範囲な実験を行い,その性能を実証した。
関連論文リスト
- Mixture of Self-Supervised Learning [2.191505742658975]
自己教師型学習は、特定のタスクに適用される前にモデル上でトレーニングされるプレテキストタスクを使用することで機能する。
従来の研究では、プリテキストタスクとして1つのタイプの変換しか使用されていなかった。
これにより、複数のプリテキストタスクが使用されているかどうか、すべてのプリテキストタスクを組み合わせるためにゲーティングネットワークを使用するかどうか、という疑問が持ち上がる。
論文 参考訳(メタデータ) (2023-07-27T14:38:32Z) - Neural Congealing: Aligning Images to a Joint Semantic Atlas [14.348512536556413]
画像の集合を横断的に意味的に共通するコンテンツを調整するための,ゼロショットの自己教師型フレームワークを提案する。
提案手法は,DINO-ViTの事前学習能力を利用して学習する。
提案手法は,大規模データセットに対する広範囲なトレーニングを必要とする最先端の手法と比較して,好適に動作することを示す。
論文 参考訳(メタデータ) (2023-02-08T09:26:22Z) - Few-shot Open-set Recognition Using Background as Unknowns [58.04165813493666]
未使用のオープンセット認識は、見知らぬクラスの限られた訓練データしか持たない、目に見える画像と新しい画像の両方を分類することを目的としている。
提案手法は,複数のベースラインより優れるだけでなく,3つのベンチマークで新たな結果が得られた。
論文 参考訳(メタデータ) (2022-07-19T04:19:29Z) - Learning to Detect Every Thing in an Open World [139.78830329914135]
我々は、Learning to Detect Every Thing (LDET)と呼ぶ、シンプルながら驚くほど強力なデータ拡張とトレーニングスキームを提案する。
可視だがラベル付けされていない背景オブジェクトの隠蔽を避けるため、元の画像の小さな領域から採取した背景画像上に注釈付きオブジェクトを貼り付ける。
LDETは、オープンワールドのインスタンスセグメンテーションタスクにおいて、多くのデータセットに大きな改善をもたらす。
論文 参考訳(メタデータ) (2021-12-03T03:56:06Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z) - Learning to Focus: Cascaded Feature Matching Network for Few-shot Image
Recognition [38.49419948988415]
ディープネットワークは、多数の画像でトレーニングすることで、カテゴリのオブジェクトを正確に認識することを学ぶことができる。
低ショット画像認識タスク(low-shot image recognition task)として知られるメタラーニングの課題は、1つのカテゴリの認識モデルを学ぶためにアノテーション付き画像しか利用できない場合に発生する。
この問題を解決するため,Cascaded Feature Matching Network (CFMN) と呼ばれる手法を提案する。
EmphminiImageNet と Omniglot の2つの標準データセットを用いた数ショット学習実験により,本手法の有効性が確認された。
論文 参考訳(メタデータ) (2021-01-13T11:37:28Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。