論文の概要: Generalized Category Discovery under Domain Shifts: From Vision to Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.00906v1
- Date: Wed, 29 Apr 2026 02:54:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.471261
- Title: Generalized Category Discovery under Domain Shifts: From Vision to Vision-Language Models
- Title(参考訳): ドメインシフト下における一般化カテゴリー発見:ビジョンから視覚言語モデルへ
- Authors: Hongjun Wang, Po Hu, Kai Han,
- Abstract要約: Generalized Category Discovery (GCD) は、既知のクラスと未知のクラスの両方から、不正なインスタンスを分類することを目的としている。
本稿では,自己教師型視覚モデルから視覚言語モデルまで,基礎モデルに適応する3つのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.54744197807287
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generalized Category Discovery (GCD) aims to categorize unlabelled instances from both known and unknown classes by transferring knowledge from labelled data of known classes. Existing methods assume all data comes from a single domain, yet real-world unlabelled data often exhibits domain shifts alongside semantic shifts. We study GCD under domain shifts and propose three frameworks that adapt foundation models, ranging from self-supervised vision models to vision-language models. (i) HiLo disentangles domain and semantic features through multi-level feature extraction and mutual information minimization, combined with PatchMix augmentation and curriculum sampling. (ii) HLPrompt extends HiLo with semantic-aware spatial prompt tuning to suppress background and domain noise. (iii) VLPrompt leverages vision-language models via factorized textual prompts and cross-modal consistency regularization. The three methods share core design principles while operating on different foundation backbones, making them suitable for different deployment scenarios. Extensive experiments on synthetic corruptions and real-world multi-domain shifts demonstrate consistent improvements over strong baselines. Project page: https://visual-ai.github.io/hilo/
- Abstract(参考訳): Generalized Category Discovery (GCD) は、既知のクラスのラベル付きデータから知識を伝達することによって、未知のクラスと未知のクラスの両方から非ラベルのインスタンスを分類することを目的としている。
既存の方法は、すべてのデータが単一のドメインから来ると仮定するが、現実の非ラベルデータはしばしばセマンティックシフトと並行してドメインシフトを示す。
ドメインシフト下でGCDを研究し、自己教師付き視覚モデルから視覚言語モデルまで、基礎モデルに適応する3つのフレームワークを提案する。
(i)HiLoは多レベル特徴抽出と相互情報の最小化によりドメインと意味的特徴を分離し,PatchMix拡張とカリキュラムサンプリングを組み合わせた。
(ii)HLPromptは、背景雑音や領域雑音を抑えるために、意味認識型空間的プロンプトチューニングによりHiLoを拡張する。
(iii)VLPromptは、因子付きテキストプロンプトとモード間の整合性正規化により、視覚言語モデルを活用する。
3つのメソッドは、異なるファンデーションバックボーンを運用しながらコア設計原則を共有し、異なるデプロイメントシナリオに適合する。
合成汚職と実世界のマルチドメインシフトに関する大規模な実験は、強いベースラインよりも一貫した改善を示している。
プロジェクトページ: https://visual-ai.github.io/hilo/
関連論文リスト
- FedDEAP: Adaptive Dual-Prompt Tuning for Multi-Domain Federated Learning [25.535882105518453]
フェデレートラーニング(FL)は、複数のクライアントがローカルデータを公開せずに、機械学習モデルを協調的にトレーニングすることを可能にする。
CLIPのような大規模ビジョン言語モデルは、強力なゼロショット分類機能を示している。
マルチドメインシナリオにおけるCLIPの一般化を促進するための適応型フェデレーションプロンプトチューニングフレームワークであるFedDEAPを提案する。
論文 参考訳(メタデータ) (2025-10-21T17:32:44Z) - Domain Expansion and Boundary Growth for Open-Set Single-Source Domain Generalization [70.02187124865627]
オープンソースの単一ソースドメインの一般化は、単一のソースドメインを使用して、未知のターゲットドメインに一般化可能な堅牢なモデルを学ぶことを目的としている。
本稿では,領域拡大と境界成長に基づく新しい学習手法を提案する。
提案手法は,いくつかの領域横断画像分類データセットにおいて,大幅な改善と最先端性能を実現することができる。
論文 参考訳(メタデータ) (2024-11-05T09:08:46Z) - Part-aware Unified Representation of Language and Skeleton for Zero-shot Action Recognition [57.97930719585095]
本稿では,PURLS(Part-aware Unified Representation between Language and Skeleton)を紹介する。
本手法はスケルトン/言語のバックボーンと3つの大規模データセットを用いて評価する。
その結果、PURLSの普遍性と優れた性能を示し、以前のスケルトンベースのソリューションと他のドメインからの標準ベースラインを上回った。
論文 参考訳(メタデータ) (2024-06-19T08:22:32Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - Language-aware Domain Generalization Network for Cross-Scene
Hyperspectral Image Classification [15.842081807249416]
ハイパースペクトル画像分類における言語モードの有効性を検討する必要がある。
大規模な事前学習画像テキスト基盤モデルは、様々なダウンストリームアプリケーションで優れた性能を示している。
言語対応ドメイン一般化ネットワーク(LDGnet)を提案する。
論文 参考訳(メタデータ) (2022-09-06T10:06:10Z) - Semantic-Aware Domain Generalized Segmentation [67.49163582961877]
ソースドメインでトレーニングされたディープモデルは、異なるデータ分布を持つ未確認対象ドメインで評価された場合、一般化に欠ける。
セマンティック・アウェア・正規化(SAN)とセマンティック・アウェア・ホワイトニング(SAW)の2つの新しいモジュールを含むフレームワークを提案する。
提案手法は,様々なバックボーンネットワークにおいて,既存の最先端ネットワークよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-04-02T09:09:59Z) - Semantic-diversity transfer network for generalized zero-shot learning
via inner disagreement based OOD detector [26.89763840782029]
Zero-shot Learning (ZSL) は、見えないクラスからオブジェクトを認識することを目的としている。
既存の多くの作品における知識伝達は、1)広く使われている視覚的特徴がグローバルなものであるが、意味的属性と完全に一致していないという事実から、主に制限されている。
最初の2つの制約に対処するセマンティック・ダイバーシティ・トランスファー・ネットワーク(SetNet)を提案し、1)マルチアテンションアーキテクチャとダイバーシティ・レギュレータを提案し、セマンティック属性とより整合した複数の局所視覚特徴を学習し、2)幾何学的に多様な局所特徴を入力として取り込むプロジェクタアンサンブルを提案する。
論文 参考訳(メタデータ) (2022-03-17T01:31:27Z) - Few-Shot Classification in Unseen Domains by Episodic Meta-Learning
Across Visual Domains [36.98387822136687]
興味のあるカテゴリのラベル付き例がほとんどないため、いくつかのショット分類は、分類を実行することを目的としている。
本稿では,ドメイン一般化型少ショット分類のための一意学習フレームワークを提案する。
メタ学習戦略を進めることで、学習フレームワークは複数のソースドメインにまたがるデータを利用して、ドメイン不変の機能をキャプチャします。
論文 参考訳(メタデータ) (2021-12-27T06:54:11Z) - Structured Latent Embeddings for Recognizing Unseen Classes in Unseen
Domains [108.11746235308046]
本稿では,異なる領域からの画像を投影することで,ドメインに依存しない遅延埋め込みを学習する手法を提案する。
挑戦的なDomainNetとDomainNet-LSベンチマークの実験は、既存のメソッドよりもアプローチの方が優れていることを示している。
論文 参考訳(メタデータ) (2021-07-12T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。