論文の概要: On Learning Discriminative Features from Synthesized Data for Self-Supervised Fine-Grained Visual Recognition
- arxiv url: http://arxiv.org/abs/2407.14676v1
- Date: Fri, 19 Jul 2024 21:43:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 21:23:47.576503
- Title: On Learning Discriminative Features from Synthesized Data for Self-Supervised Fine-Grained Visual Recognition
- Title(参考訳): 自己監督型微視的認識のための合成データからの識別的特徴の学習について
- Authors: Zihu Wang, Lingqiao Liu, Scott Ricardo Figueroa Weston, Samuel Tian, Peng Li,
- Abstract要約: 自己監視学習(SSL)は、様々なタスクにわたる視覚的表現を取得するための顕著なアプローチとなっている。
我々は,SSLの視覚的認識に不可欠な重要な識別的特徴を抽出する能力を向上する新たな戦略を導入する。
このアプローチは、FGVRに不可欠な差別的特徴に焦点を合わせるために、合成データペアを作成する。
- 参考スコア(独自算出の注目度): 21.137498023391178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-Supervised Learning (SSL) has become a prominent approach for acquiring visual representations across various tasks, yet its application in fine-grained visual recognition (FGVR) is challenged by the intricate task of distinguishing subtle differences between categories. To overcome this, we introduce an novel strategy that boosts SSL's ability to extract critical discriminative features vital for FGVR. This approach creates synthesized data pairs to guide the model to focus on discriminative features critical for FGVR during SSL. We start by identifying non-discriminative features using two main criteria: features with low variance that fail to effectively separate data and those deemed less important by Grad-CAM induced from the SSL loss. We then introduce perturbations to these non-discriminative features while preserving discriminative ones. A decoder is employed to reconstruct images from both perturbed and original feature vectors to create data pairs. An encoder is trained on such generated data pairs to become invariant to variations in non-discriminative dimensions while focusing on discriminative features, thereby improving the model's performance in FGVR tasks. We demonstrate the promising FGVR performance of the proposed approach through extensive evaluation on a wide variety of datasets.
- Abstract(参考訳): 自己監督学習(SSL)は、様々なタスクにわたる視覚的表現を取得するための顕著なアプローチとなっているが、その細粒度視覚認識(FGVR)への応用は、カテゴリ間の微妙な違いを区別する複雑なタスクによって挑戦されている。
これを解決するために、FGVRに不可欠な重要な差別的特徴を抽出するSSLの能力を高める新しい戦略を導入する。
このアプローチは、SSL中にFGVRにとって重要な差別的特徴に焦点を合わせるために、合成データペアを作成する。
まず、SSLの損失によって引き起こされたGrad-CAMによって重要でないと見なされる、分散度の低い特徴と、データを効果的に分離できない特徴の2つの主要な基準を用いて、差別的でない特徴を識別することから始める。
次に、差別的特徴を保ちながら、これらの非差別的特徴に摂動を導入する。
デコーダを用いて、摂動ベクトルと原特徴ベクトルの両方から画像を再構成し、データペアを作成する。
エンコーダは、このような生成されたデータ対に基づいて訓練され、識別的特徴に着目しながら非識別的次元のバリエーションに不変となり、FGVRタスクにおけるモデルの性能を向上させる。
提案手法の有望なFGVR性能を多種多様なデータセットで広範囲に評価することで実証する。
関連論文リスト
- High-Discriminative Attribute Feature Learning for Generalized Zero-Shot Learning [54.86882315023791]
一般化ゼロショット学習(HDAFL)のための高識別属性特徴学習(High-Discriminative Attribute Feature Learning)という革新的な手法を提案する。
HDAFLは複数の畳み込みカーネルを使用して、画像の属性と高い相関性を持つ識別領域を自動的に学習する。
また、属性間の識別能力を高めるために、Transformerベースの属性識別エンコーダを導入する。
論文 参考訳(メタデータ) (2024-04-07T13:17:47Z) - Detail Reinforcement Diffusion Model: Augmentation Fine-Grained Visual Categorization in Few-Shot Conditions [11.121652649243119]
拡散モデルは、データ生成において顕著な多様性のため、データ拡張において広く採用されている。
詳細強化拡散モデル(DRDM)と呼ばれる新しい手法を提案する。
大規模モデルの豊富な知識を微粒化に活用し、識別的意味的組換え(DSR)と空間的知識参照(SKR)の2つの重要な構成要素を含む。
論文 参考訳(メタデータ) (2023-09-15T01:28:59Z) - Learning Invariant Representation via Contrastive Feature Alignment for
Clutter Robust SAR Target Recognition [10.993101256393679]
本稿ではコントラスト的特徴アライメント(Contrastive Feature Alignment, CFA)と呼ばれる手法を提案し, 頑健な認識のための不変表現を学習する。
CFAは、分類とCWMSEの損失を組み合わせて、モデルを共同で訓練する。
提案したCFAは、分類とCWMSE損失を併用してモデルをトレーニングし、不変対象表現の漸進的学習を可能にする。
論文 参考訳(メタデータ) (2023-04-04T12:35:33Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Data-Efficient Instance Generation from Instance Discrimination [40.71055888512495]
本稿では,インスタンス識別に基づくデータ効率の高いインスタンス生成手法を提案する。
本研究では,インスタンス識別に基づくデータ効率の高いインスタンス生成(InsGen)手法を提案する。
論文 参考訳(メタデータ) (2021-06-08T17:52:59Z) - Style Normalization and Restitution for DomainGeneralization and
Adaptation [88.86865069583149]
効果的なドメイン一般化モデルは、一般化および判別可能な特徴表現を学習することが期待される。
本稿では,ネットワークの高一般化と識別能力を確保するために,新しいスタイル正規化・再構成モジュール(SNR)を設計する。
論文 参考訳(メタデータ) (2021-01-03T09:01:39Z) - Discriminative feature generation for classification of imbalanced data [6.458496335718508]
マイノリティクラスデータセットを対象とした新しい分類特徴生成法(DFG)を提案する。
DFGは、4つの独立したネットワークからなる生成的敵ネットワークの修正された構造に基づいている。
実験結果から,DFGジェネレータはラベル保存および多彩な特徴の増大を促進することが示された。
論文 参考訳(メタデータ) (2020-10-24T12:19:05Z) - Adversarial Feature Hallucination Networks for Few-Shot Learning [84.31660118264514]
Adversarial Feature Hallucination Networks (AFHN) は条件付き Wasserstein Generative Adversarial Network (cWGAN) に基づいている。
合成された特徴の識別性と多様性を促進するために、2つの新規レギュレータがAFHNに組み込まれている。
論文 参考訳(メタデータ) (2020-03-30T02:43:16Z) - When Relation Networks meet GANs: Relation GANs with Triplet Loss [110.7572918636599]
GAN(Generative Adversarial Network)の学習安定性はいまだに悩みの種である
本稿では,判別器のための関係ネットワークアーキテクチャについて検討し,より優れた一般化と安定性を実現する三重項損失を設計する。
ベンチマークデータセットの実験により、提案された関係判別器と新たな損失は、可変視覚タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-24T11:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。