論文の概要: PP-SSL : Priority-Perception Self-Supervised Learning for Fine-Grained Recognition
- arxiv url: http://arxiv.org/abs/2412.00134v1
- Date: Thu, 28 Nov 2024 15:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:46:08.622410
- Title: PP-SSL : Priority-Perception Self-Supervised Learning for Fine-Grained Recognition
- Title(参考訳): PP-SSL : 微粒化認識のための優先認識自己教師付き学習
- Authors: ShuaiHeng Li, Qing Cai, Fan Zhang, Menghuan Zhang, Yangyang Shu, Zhi Liu, Huafeng Li, Lingqiao Liu,
- Abstract要約: 自己教師付き学習は、将来性のある結果とともに、きめ細かい視覚認識において出現している。
既存の自己教師型学習手法は、自己教師型タスクにおける無関係なパターンに影響を受けやすい。
本稿では,PP-SSL と表記される新しい優先度知覚自己監視学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 28.863121559446665
- License:
- Abstract: Self-supervised learning is emerging in fine-grained visual recognition with promising results. However, existing self-supervised learning methods are often susceptible to irrelevant patterns in self-supervised tasks and lack the capability to represent the subtle differences inherent in fine-grained visual recognition (FGVR), resulting in generally poorer performance. To address this, we propose a novel Priority-Perception Self-Supervised Learning framework, denoted as PP-SSL, which can effectively filter out irrelevant feature interference and extract more subtle discriminative features throughout the training process. Specifically, it composes of two main parts: the Anti-Interference Strategy (AIS) and the Image-Aided Distinction Module (IADM). In AIS, a fine-grained textual description corpus is established, and a knowledge distillation strategy is devised to guide the model in eliminating irrelevant features while enhancing the learning of more discriminative and high-quality features. IADM reveals that extracting GradCAM from the original image effectively reveals subtle differences between fine-grained categories. Compared to features extracted from intermediate or output layers, the original image retains more detail, allowing for a deeper exploration of the subtle distinctions among fine-grained classes. Extensive experimental results indicate that the PP-SSL significantly outperforms existing methods across various datasets, highlighting its effectiveness in fine-grained recognition tasks. Our code will be made publicly available upon publication.
- Abstract(参考訳): 自己教師付き学習は、将来性のある結果とともに、きめ細かい視覚認識において出現している。
しかし、既存の自己教師型学習手法は、自己教師型タスクの無関係なパターンに影響を受けやすいことが多く、細粒度視覚認識(FGVR)に固有の微妙な差異を表現する能力が欠如しているため、一般的には性能が低下する。
そこで本研究では,非関係な特徴干渉を効果的に除去し,学習過程を通じてより微妙な識別的特徴を抽出する,PP-SSLと呼ばれる新たな優先認識自己監視学習フレームワークを提案する。
具体的には、AIS(Anti-Interference Strategy)とIADM(Image-Aided Distinction Module)の2つの主要な部分で構成されている。
AISでは、細粒度テキスト記述コーパスが確立され、より差別的で高品質な特徴の学習を高めつつ、無関係な特徴を排除するための知識蒸留戦略が考案された。
IADMは、元の画像からGradCAMを抽出することで、微粒なカテゴリ間の微妙な違いを効果的に明らかにする。
中間層や出力層から抽出した特徴と比較すると、原画像はより詳細を保ち、微細なクラス間の微妙な区別をより深く調べることができる。
大規模実験の結果,PP-SSLは様々なデータセットで既存の手法よりも優れており,粒度認識タスクにおけるその有効性を強調している。
私たちのコードは出版時に公開されます。
関連論文リスト
- An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - High-Discriminative Attribute Feature Learning for Generalized Zero-Shot Learning [54.86882315023791]
一般化ゼロショット学習(HDAFL)のための高識別属性特徴学習(High-Discriminative Attribute Feature Learning)という革新的な手法を提案する。
HDAFLは複数の畳み込みカーネルを使用して、画像の属性と高い相関性を持つ識別領域を自動的に学習する。
また、属性間の識別能力を高めるために、Transformerベースの属性識別エンコーダを導入する。
論文 参考訳(メタデータ) (2024-04-07T13:17:47Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Attribute-Aware Representation Rectification for Generalized Zero-Shot
Learning [19.65026043141699]
一般化ゼロショット学習(GZSL)は、一連の非バイアスの視覚-セマンティックマッピングを設計することによって、顕著な性能を得た。
本稿では,GZSLに対して,$mathbf(AR)2$という簡易かつ効果的な属性認識表現フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-23T11:30:32Z) - Enlarging Instance-specific and Class-specific Information for Open-set
Action Recognition [47.69171542776917]
よりリッチなセマンティックな多様性を持つ機能は、同じ不確実性スコアの下で、オープンセットのパフォーマンスを著しく向上させることができる。
よりIS情報を保持するために、インスタンスの分散を同じクラス内に保持するために、新しいPSLフレームワークが提案されている。
論文 参考訳(メタデータ) (2023-03-25T04:07:36Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。