論文の概要: Adaptive Part Learning for Fine-Grained Generalized Category Discovery: A Plug-and-Play Enhancement
- arxiv url: http://arxiv.org/abs/2507.06928v1
- Date: Wed, 09 Jul 2025 15:10:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.637329
- Title: Adaptive Part Learning for Fine-Grained Generalized Category Discovery: A Plug-and-Play Enhancement
- Title(参考訳): ファイングラインド一般化カテゴリー発見のための適応的部分学習:プラグインとプレイの強化
- Authors: Qiyuan Dai, Hanzhuo Huang, Yu Wu, Sibei Yang,
- Abstract要約: Generalized Category Discovery (GCD) は、既知のクラスと新しいクラスを区別することで、未知のイメージを既知のクラスと新しいクラスから認識することを目的としている。
既存のGCD法は、表現学習のためにDINOのような自己監督型視覚変換器に依存している。
我々はAPLと呼ばれる適応的な部分探索学習手法を導入し、異なる類似画像間で一貫した対象部分とその対応関係を生成する。
- 参考スコア(独自算出の注目度): 19.401916634022218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalized Category Discovery (GCD) aims to recognize unlabeled images from known and novel classes by distinguishing novel classes from known ones, while also transferring knowledge from another set of labeled images with known classes. Existing GCD methods rely on self-supervised vision transformers such as DINO for representation learning. However, focusing solely on the global representation of the DINO CLS token introduces an inherent trade-off between discriminability and generalization. In this paper, we introduce an adaptive part discovery and learning method, called APL, which generates consistent object parts and their correspondences across different similar images using a set of shared learnable part queries and DINO part priors, without requiring any additional annotations. More importantly, we propose a novel all-min contrastive loss to learn discriminative yet generalizable part representation, which adaptively highlights discriminative object parts to distinguish similar categories for enhanced discriminability while simultaneously sharing other parts to facilitate knowledge transfer for improved generalization. Our APL can easily be incorporated into different GCD frameworks by replacing their CLS token feature with our part representations, showing significant enhancements on fine-grained datasets.
- Abstract(参考訳): Generalized Category Discovery (GCD) は、新しいクラスを既知のクラスと区別し、既知のクラスとラベル付きイメージの別のセットから知識を伝達することで、既知のクラスと新規クラスのラベル付きイメージを識別することを目的としている。
既存のGCD法は、表現学習のためにDINOのような自己監督型視覚変換器に依存している。
しかし、DINO CLSトークンのグローバル表現にのみ焦点をあてると、差別性と一般化の間に固有のトレードオフがもたらされる。
本稿では,APLと呼ばれる適応的な部分探索学習手法について紹介する。この手法は,他のアノテーションを必要とせずに,共有可能な部分クエリとDINO部分先行のセットを用いて,複数の類似画像に対して一貫した対象部分とその対応を生成できる。
より重要なことは、差別的だが一般化可能な部分表現を学習し、識別的対象部分を適応的に強調し、識別性を高めるために類似のカテゴリを識別し、同時に他の部分を共有して知識伝達を容易にし、一般化を改善することである。
我々のAPLは、CLSトークン機能を私たちの部分表現に置き換えることで、さまざまなGCDフレームワークに簡単に組み込めるようになり、きめ細かいデータセットに対する大幅な拡張が示されます。
関連論文リスト
- Learning Part Knowledge to Facilitate Category Understanding for Fine-Grained Generalized Category Discovery [10.98097145569408]
Generalized Category Discovery (GCD)は、目に見えないカテゴリと新しいカテゴリの両方を含むラベルのないデータを分類することを目的としている。
本稿では,細粒度GCDに対処するための部分知識の導入を提案する。
論文 参考訳(メタデータ) (2025-03-21T01:37:51Z) - InPK: Infusing Prior Knowledge into Prompt for Vision-Language Models [24.170351966913557]
学習可能なトークンにクラス固有の事前知識を注入するInPKモデルを提案する。
また、テキスト調整に対応するための学習可能なテキスト・ツー・ビジョン・プロジェクション・レイヤも導入する。
実験では、InPKは複数のゼロ/ファウショット画像分類タスクにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-02-27T05:33:18Z) - Discriminative Image Generation with Diffusion Models for Zero-Shot Learning [53.44301001173801]
ゼロショット学習のための新たな識別画像生成フレームワークであるDIG-ZSLを提案する。
我々は、事前学習されたカテゴリー識別モデル(CDM)の指導のもと、各未確認クラスの識別クラストークン(DCT)を学習する。
本稿では,4つのデータセットに対する広範な実験と可視化を行い,(1)多彩で高品質な画像を生成すること,(2)最先端の非人間アノテーション型セマンティックプロトタイプ手法を大きなマージンで上回ること,(3)人間アノテーションを利用したベースラインよりも同等あるいは優れた性能を実現すること,の4つが示される。
論文 参考訳(メタデータ) (2024-12-23T02:18:54Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Learning Aligned Cross-Modal Representation for Generalized Zero-Shot
Classification [17.177622259867515]
一般化ゼロショット分類(GZSC)のためのアラインド・クロスモーダル表現(adigned Cross-Modal Representations, ACMR)の学習による革新的オートエンコーダネットワークを提案する。
具体的には,学習型分類器によって導かれる潜在部分空間上でのクロスモーダルな潜在特徴のアライメントを強化するために,新しい視覚・セマンティックアライメント(VSA)法を提案する。
さらに,潜伏変数の識別能力を高めるとともに,潜伏変数が崩壊する可能性を低減するための新しい情報拡張モジュール (IEM) を提案する。
論文 参考訳(メタデータ) (2021-12-24T03:35:37Z) - Task-Independent Knowledge Makes for Transferable Representations for
Generalized Zero-Shot Learning [77.0715029826957]
一般化されたゼロショット学習(GZSL)は、転送可能な画像表現を学習することによって新しいカテゴリを認識する。
タスク固有とタスク非依存の知識を同時に学習する新しいデュアルコントラスト埋め込みネットワーク(DCEN)を提案する。
論文 参考訳(メタデータ) (2021-04-05T10:05:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。