論文の概要: Self-Supervised Learning for Fine-Grained Visual Categorization
- arxiv url: http://arxiv.org/abs/2105.08788v1
- Date: Tue, 18 May 2021 19:16:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 00:36:04.602017
- Title: Self-Supervised Learning for Fine-Grained Visual Categorization
- Title(参考訳): 細粒度視覚分類のための自己教師あり学習
- Authors: Muhammad Maaz, Hanoona Abdul Rasheed, Dhanalaxmi Gaddam
- Abstract要約: 細粒度視覚分類(FGVC)におけるSSLの有用性について検討する。
FGVCは、一般的なカテゴリ内で視覚的に類似したサブカテゴリのオブジェクトを区別することを目的としている。
我々のベースラインは、CUB-200-2011データセットの上位1の分類精度を86.36%で達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research in self-supervised learning (SSL) has shown its capability in
learning useful semantic representations from images for classification tasks.
Through our work, we study the usefulness of SSL for Fine-Grained Visual
Categorization (FGVC). FGVC aims to distinguish objects of visually similar sub
categories within a general category. The small inter-class, but large
intra-class variations within the dataset makes it a challenging task. The
limited availability of annotated labels for such a fine-grained data
encourages the need for SSL, where additional supervision can boost learning
without the cost of extra annotations. Our baseline achieves $86.36\%$ top-1
classification accuracy on CUB-200-2011 dataset by utilizing random crop
augmentation during training and center crop augmentation during testing. In
this work, we explore the usefulness of various pretext tasks, specifically,
rotation, pretext invariant representation learning (PIRL), and deconstruction
and construction learning (DCL) for FGVC. Rotation as an auxiliary task
promotes the model to learn global features, and diverts it from focusing on
the subtle details. PIRL that uses jigsaw patches attempts to focus on
discriminative local regions, but struggles to accurately localize them. DCL
helps in learning local discriminating features and outperforms the baseline by
achieving $87.41\%$ top-1 accuracy. The deconstruction learning forces the
model to focus on local object parts, while reconstruction learning helps in
learning the correlation between the parts. We perform extensive experiments to
reason our findings. Our code is available at
https://github.com/mmaaz60/ssl_for_fgvc.
- Abstract(参考訳): 自己教師付き学習(SSL)の最近の研究は、分類タスクの画像から有用な意味表現を学習する能力を示している。
本研究では,FGVCにおけるSSLの有用性について検討した。
FGVCは、一般的なカテゴリ内で視覚的に類似したサブカテゴリのオブジェクトを区別することを目的としている。
データセット内の小さなクラス間、しかし大きなクラス内バリエーションは、難しいタスクになります。
このようなきめ細かいデータに対するアノテートラベルの制限はSSLの必要性を助長し、追加のアノテーションのコストを伴わずに学習を促進することができる。
cub-200-2011 データセットではトレーニング中のランダム作物増量と試験中の中心作物増量を利用して 86.36 % のtop-1 分類精度を達成している。
本研究では,FGVCにおける各種プリテキストタスク,特に回転,プリテキスト不変表現学習(PIRL),デコンストラクションと構築学習(DCL)の有用性について検討する。
補助的なタスクとしての回転は、グローバルな特徴を学習するモデルを促進し、微妙な詳細に焦点を絞ることから切り離す。
ジグソーパッチを使用するPIRLは、差別的な地域に集中しようとするが、それらを正確にローカライズするのに苦労する。
DCLは局所的な識別特徴の学習に役立ち、87.41 %$ top-1 の精度でベースラインを上回ります。
デコンストラクション学習はモデルを局所的なオブジェクト部分に集中させ、レコンストラクション学習は部分間の相関を学習するのに役立つ。
我々の発見を推論するための広範な実験を行う。
私たちのコードはhttps://github.com/mmaaz60/ssl_for_fgvcで利用可能です。
関連論文リスト
- Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud
Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。
既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。
本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T04:16:40Z) - Segment Anything Model is a Good Teacher for Local Feature Learning [19.66262816561457]
局所的な特徴の検出と記述は多くのコンピュータビジョンタスクにおいて重要な役割を果たす。
データ駆動型局所特徴学習手法は、訓練にピクセルレベルの対応に頼る必要がある。
本研究では,SAMFeatを教師として導入し,局所的な特徴学習の指導を行う。
論文 参考訳(メタデータ) (2023-09-29T05:29:20Z) - FDCNet: Feature Drift Compensation Network for Class-Incremental Weakly
Supervised Object Localization [10.08410402383604]
本研究は、クラス増分弱教師付きオブジェクトローカライゼーション(CI-WSOL)の課題に対処する。
ゴールは、画像レベルのアノテーションのみを使用して、新しいクラスのオブジェクトローカライゼーションを漸進的に学習し、以前に学習したクラスをローカライズする能力を維持することである。
まず、クラスインクリメンタル分類器の戦略を破滅的な忘れ方に適用し、CI-WSOLの強力なベースライン法を提案する。
そこで我々は,特徴ドリフトがクラススコアやローカライゼーションマップに与える影響を補償する特徴ドリフト補償ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-17T01:10:45Z) - Deep Active Learning Using Barlow Twins [0.0]
畳み込みニューラルネットワーク(CNN)の一般化性能は、トレーニング画像の量、品質、多様性に大きく左右される。
タスクのアクティブラーニングの目標は、ラベルのないプールから最も情報に富んだサンプルを引き出すことである。
本稿では,すべてのデータセットに対する能動的学習手法であるBarlowTwins(DALBT)を用いたDeep Active Learningを提案する。
論文 参考訳(メタデータ) (2022-12-30T12:39:55Z) - Self-Supervised Learning for Fine-Grained Image Classification [0.0]
きめ細かいデータセットは通常、分類プロセスを支援するために、クラスラベルとともにバウンディングボックスアノテーションを提供する。
一方、自己教師付き学習では、自由に利用可能なデータを利用してラベルとして機能する監視信号を生成する。
我々の考えは、モデルが微細な画像クラスの有用な表現を学習できるように、自己スーパービジョンを活用することである。
論文 参考訳(メタデータ) (2021-07-29T14:01:31Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - Goal-Oriented Gaze Estimation for Zero-Shot Learning [62.52340838817908]
識別的属性の局在性を改善するために, 目標指向視線推定モジュール(GEM)を提案する。
属性記述に導かれた新しい物体を認識する視覚注意領域を得るために,実際の人間の視線位置を予測することを目的とする。
この研究は、高レベルのコンピュータビジョンタスクに人間の視線データセットと自動視線推定アルゴリズムを集めることの有望な利点を示しています。
論文 参考訳(メタデータ) (2021-03-05T02:14:57Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z) - TAFSSL: Task-Adaptive Feature Sub-Space Learning for few-shot
classification [50.358839666165764]
本稿では,タスク適応機能サブスペース学習(TAFSSL)により,Few-Shot Learningシナリオの性能を大幅に向上させることができることを示す。
具体的には、挑戦的な miniImageNet と tieredImageNet ベンチマークにおいて、TAFSSL はトランスダクティブおよび半教師付き FSL 設定の両方で現在の状態を改善することができることを示しています。
論文 参考訳(メタデータ) (2020-03-14T16:59:17Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。