論文の概要: Learning Contrastive Self-Distillation for Ultra-Fine-Grained Visual
Categorization Targeting Limited Samples
- arxiv url: http://arxiv.org/abs/2311.06056v1
- Date: Fri, 10 Nov 2023 13:39:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 15:05:58.382991
- Title: Learning Contrastive Self-Distillation for Ultra-Fine-Grained Visual
Categorization Targeting Limited Samples
- Title(参考訳): 限られたサンプルを対象とする超高次視覚分類のための学習コントラスト自己蒸留法
- Authors: Ziye Fang, Xin Jiang, Hao Tang, Zechao Li
- Abstract要約: CSDNetは、差別的な表現を学ぶために、対照的な学習と自己蒸留を探求する先駆的なフレームワークである。
CSDNetは3つの主要なモジュールからなる: Subcategory-Specific Discrepancy Parsing (SSDP)、Dynamic Discrepancy Learning (DDL)、Subcategory-Specific Discrepancy Transfer (SSDT)。
CSDNetは現在のUltra-FGVC法よりも優れていることを示す実験結果を得た。
- 参考スコア(独自算出の注目度): 36.73277912213308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of intelligent multimedia analysis, ultra-fine-grained visual
categorization (Ultra-FGVC) plays a vital role in distinguishing intricate
subcategories within broader categories. However, this task is inherently
challenging due to the complex granularity of category subdivisions and the
limited availability of data for each category. To address these challenges,
this work proposes CSDNet, a pioneering framework that effectively explores
contrastive learning and self-distillation to learn discriminative
representations specifically designed for Ultra-FGVC tasks. CSDNet comprises
three main modules: Subcategory-Specific Discrepancy Parsing (SSDP), Dynamic
Discrepancy Learning (DDL), and Subcategory-Specific Discrepancy Transfer
(SSDT), which collectively enhance the generalization of deep models across
instance, feature, and logit prediction levels. To increase the diversity of
training samples, the SSDP module introduces augmented samples from different
viewpoints to spotlight subcategory-specific discrepancies. Simultaneously, the
proposed DDL module stores historical intermediate features by a dynamic memory
queue, which optimizes the feature learning space through iterative contrastive
learning. Furthermore, the SSDT module is developed by a novel
self-distillation paradigm at the logit prediction level of raw and augmented
samples, which effectively distills more subcategory-specific discrepancies
knowledge from the inherent structure of limited training data without
requiring additional annotations. Experimental results demonstrate that CSDNet
outperforms current state-of-the-art Ultra-FGVC methods, emphasizing its
powerful efficacy and adaptability in addressing Ultra-FGVC tasks.
- Abstract(参考訳): インテリジェントマルチメディア分析の分野では、Ultra-FGVC(Ultra-FGVC)はより広いカテゴリの複雑なサブカテゴリを区別する上で重要な役割を担っている。
しかし、この課題は、カテゴリ区分の複雑な粒度と、カテゴリごとのデータ可用性の制限により本質的に困難である。
これらの課題に対処するため、この研究は、Ultra-FGVCタスク用に特別に設計された識別表現を学習するために、対照的な学習と自己蒸留を効果的に探求する先駆的なフレームワークであるCSDNetを提案する。
CSDNetは3つの主要なモジュールで構成されている: Subcategory-Specific Discrepancy Parsing (SSDP)、Dynamic Discrepancy Learning (DDL)、Subcategory-Specific Discrepancy Transfer (SSDT)。
トレーニングサンプルの多様性を高めるため、SSDPモジュールは異なる視点から、スポットライトのサブカテゴリ固有の相違点に拡張サンプルを導入する。
同時に提案するDDLモジュールは,動的メモリキューによって履歴中間機能を格納し,反復的コントラスト学習により特徴学習空間を最適化する。
さらに、SSDTモジュールは、生サンプルと増補サンプルのロジット予測レベルでの新しい自己蒸留パラダイムによって開発され、追加アノテーションを必要とせず、限られたトレーニングデータ固有の構造から、よりサブカテゴリ固有の不一致知識を効果的に蒸留する。
実験の結果、CSDNetは現在のUltra-FGVC法よりも優れており、Ultra-FGVCタスクに対処する上で、その強力な有効性と適応性を強調している。
関連論文リスト
- Memory-guided Network with Uncertainty-based Feature Augmentation for Few-shot Semantic Segmentation [12.653336728447654]
学習可能なメモリベクトルの集合からなるクラス共有メモリ(CSM)モジュールを提案する。
これらのメモリベクトルは、トレーニング中にベースクラスから要素オブジェクトパターンを学習し、トレーニングと推論の両方でクエリ機能を再エンコードする。
我々は、CSMとUFAを代表的FSS作品に統合し、広く使われているPASCAL-5$i$とCOCO-20$i$データセットの実験結果を得た。
論文 参考訳(メタデータ) (2024-06-01T19:53:25Z) - Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained
Ship Classification [62.425462136772666]
リモートセンシング(RS-FGSC)における船のきめ細かい分類は、クラス間の高い類似性とラベル付きデータの限られた可用性のために大きな課題となる。
大規模な訓練済みビジョンランゲージモデル(VLM)の最近の進歩は、少数ショット学習やゼロショット学習において印象的な能力を示している。
本研究は, 船種別分類精度を高めるために, VLMの可能性を生かしたものである。
論文 参考訳(メタデータ) (2024-03-13T05:48:58Z) - Detail Reinforcement Diffusion Model: Augmentation Fine-Grained Visual Categorization in Few-Shot Conditions [11.121652649243119]
拡散モデルは、データ生成において顕著な多様性のため、データ拡張において広く採用されている。
詳細強化拡散モデル(DRDM)と呼ばれる新しい手法を提案する。
大規模モデルの豊富な知識を微粒化に活用し、識別的意味的組換え(DSR)と空間的知識参照(SKR)の2つの重要な構成要素を含む。
論文 参考訳(メタデータ) (2023-09-15T01:28:59Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - Concept Drift and Long-Tailed Distribution in Fine-Grained Visual Categorization: Benchmark and Method [84.68818879525568]
コンセプションドリフトとLong-Tailed Distributionデータセットを提案する。
インスタンスの特徴は時間によって異なり、長い尾の分布を示す傾向がある。
本稿ではCDLTに関連する学習課題に対処する機能組換えフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-04T12:42:45Z) - Regularization Through Simultaneous Learning: A Case Study on Plant
Classification [0.0]
本稿では,トランスファーラーニングとマルチタスクラーニングの原則に基づく正規化アプローチである同時学習を紹介する。
我々は、ターゲットデータセットであるUFOP-HVDの補助データセットを活用し、カスタマイズされた損失関数でガイドされた同時分類を容易にする。
興味深いことに,本手法は正規化のないモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-22T19:44:57Z) - R2-Trans:Fine-Grained Visual Categorization with Redundancy Reduction [21.11038841356125]
細粒度視覚分類(FGVC)は、クラス内の大きな多様性と微妙なクラス間差が主な課題である類似のサブカテゴリを識別することを目的としている。
本稿では,FGVCに対する新たなアプローチを提案する。FGVCは,環境条件における部分的かつ十分な識別情報を同時に利用でき,また,対象物に対するクラストークンにおける冗長情報を圧縮することができる。
論文 参考訳(メタデータ) (2022-04-21T13:35:38Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。