論文の概要: The Finer the Better: Towards Granular-aware Open-set Domain Generalization
- arxiv url: http://arxiv.org/abs/2511.16979v1
- Date: Fri, 21 Nov 2025 06:19:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.90142
- Title: The Finer the Better: Towards Granular-aware Open-set Domain Generalization
- Title(参考訳): Finer the Better: グラニュラー・アウェア・オープン・セット・ドメインの一般化に向けて
- Authors: Yunyun Wang, Zheng Duan, Xinyue Liao, Ke-Jia Chen, Songcan Chen,
- Abstract要約: オープンセットドメインの一般化は、デプロイされたモデルがドメインシフトと新しいオブジェクトカテゴリの両方に遭遇する現実的なシナリオに取り組む。
既存の手法は、未知のクラスの構造的リスクと未知のクラスの構造的リスクの間のジレンマに依然として陥る。
本稿では, セマンティック・エンハンスメントを用いたCLIPフレームワークを提案する。
- 参考スコア(独自算出の注目度): 31.197204515055756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-Set Domain Generalization (OSDG) tackles the realistic scenario where deployed models encounter both domain shifts and novel object categories. Despite impressive progress with vision-language models like CLIP, existing methods still fall into the dilemma between structural risk of known-classes and open-space risk from unknown-classes, and easily suffers from over-confidence, especially when distinguishing ``hard unknowns" that share fine-grained visual similarities with known classes. To this end, we propose a Semantic-enhanced CLIP (SeeCLIP) framework that explicitly addresses this dilemma through fine-grained semantic enhancement. In SeeCLIP, we propose a semantic-aware prompt enhancement module to decompose images into discriminative semantic tokens, enabling nuanced vision-language alignment beyond coarse category labels. To position unknown prompts effectively, we introduce duplex contrastive learning with complementary objectives, that is, repulsion to maintain separability from known classes, and cohesion to preserve semantic proximity. Further, our semantic-guided diffusion module synthesizes pseudo-unknowns by perturbing extracted semantic tokens, generating challenging samples that are visually similar to known classes yet exhibit key local differences. These hard negatives force the model to learn finer decision boundaries. Extensive experiments across five benchmarks demonstrate consistent improvements of 3% accuracy and 5% H-score over state-of-the-art methods.
- Abstract(参考訳): Open-Set Domain Generalization (OSDG)は、デプロイされたモデルがドメインシフトと新しいオブジェクトカテゴリの両方に遭遇する現実的なシナリオに取り組む。
CLIPのような視覚言語モデルによる顕著な進歩にもかかわらず、既存のメソッドは、既知のクラスの構造的リスクと未知のクラスからのオープンスペース的リスクとの間にジレンマに陥り、特に既知のクラスときめ細かい視覚的類似性を共有している 'hard unknowns' を区別する場合、容易に過度な自信に悩まされる。
この目的のために,セマンティック・エンハンスド・CLIP(SeeCLIP)フレームワークを提案する。
SeeCLIPでは,イメージを識別的意味トークンに分解する意味認識プロンプト拡張モジュールを提案する。
未知のプロンプトを効果的に配置するために, 相補的目的, すなわち, 既知のクラスからの分離性を維持するための反発, 意味的近接性を維持するための凝集を導入した。
さらに,抽出したセマンティックトークンを摂動することで擬似未知を合成し,既知のクラスと視覚的に類似した挑戦的なサンプルを生成する。
これらの強硬な否定は、モデルによりきめ細かな決定境界を学習させます。
5つのベンチマークにわたる大規模な実験は、最先端の手法よりも3%の精度と5%のHスコアが一貫した改善を示した。
関連論文リスト
- Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - Vocabulary-free Fine-grained Visual Recognition via Enriched Contextually Grounded Vision-Language Model [52.01031460230826]
伝統的なアプローチは固定語彙と閉集合分類パラダイムに大きく依存している。
近年の研究では、大規模言語モデルと視覚言語モデル(VLM)を組み合わせることで、オープンセット認識が可能であることが実証されている。
そこで本研究では,精密な視覚認識のための最先端の手法であるEnriched-FineRを提案する。
論文 参考訳(メタデータ) (2025-07-30T20:06:01Z) - CCL-LGS: Contrastive Codebook Learning for 3D Language Gaussian Splatting [53.15827818829865]
2Dプリンシパルに依存しているメソッドは、横断的なセマンティクスの不整合という重要な課題に陥る。
CCL-LGSは、多視点セマンティックキューを統合することで、ビューに一貫性のあるセマンティック監視を実現する新しいフレームワークである。
我々の枠組みは、カテゴリー識別性を維持しながら意味的対立を明示的に解決する。
論文 参考訳(メタデータ) (2025-05-26T19:09:33Z) - Unknown Prompt, the only Lacuna: Unveiling CLIP's Potential for Open Domain Generalization [12.126495847808803]
本稿では、視覚言語モデルCLIPのセマンティックな長所を生かしたODG-CLIPを紹介する。
我々はODGを、既知のカテゴリと新しいカテゴリの両方を包含する多クラス分類課題として概念化している。
我々は,CLIPの視覚的埋め込みの忠実度を高めるために,プロンプト空間から派生したクラス識別的知識で画像を注入する。
論文 参考訳(メタデータ) (2024-03-31T15:03:31Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - Cluster-based Contrastive Disentangling for Generalized Zero-Shot
Learning [25.92340532509084]
Generalized Zero-Shot Learning (GZSL) は、目に見えないクラスと見えないクラスの両方を認識することを目的としている。
本稿では,クラスタベースのContrastive Disentangling(CCD)手法を提案する。
論文 参考訳(メタデータ) (2022-03-05T02:50:12Z) - Learning Aligned Cross-Modal Representation for Generalized Zero-Shot
Classification [17.177622259867515]
一般化ゼロショット分類(GZSC)のためのアラインド・クロスモーダル表現(adigned Cross-Modal Representations, ACMR)の学習による革新的オートエンコーダネットワークを提案する。
具体的には,学習型分類器によって導かれる潜在部分空間上でのクロスモーダルな潜在特徴のアライメントを強化するために,新しい視覚・セマンティックアライメント(VSA)法を提案する。
さらに,潜伏変数の識別能力を高めるとともに,潜伏変数が崩壊する可能性を低減するための新しい情報拡張モジュール (IEM) を提案する。
論文 参考訳(メタデータ) (2021-12-24T03:35:37Z) - Exploiting a Joint Embedding Space for Generalized Zero-Shot Semantic
Segmentation [25.070027668717422]
一般化ゼロショットセマンティックセマンティックセグメンテーション(GZS3)は、見えないクラスと見えないクラスのピクセルワイズセマンティックラベルを予測する。
ほとんどのGZS3メソッドは、対応するセマンティックなクラスから見えないクラスの視覚的特徴を合成する生成的アプローチを採用している。
統一されたフレームワークにおける制限に対処するための差別的アプローチを提案する。
論文 参考訳(メタデータ) (2021-08-14T13:33:58Z) - Deep Clustering by Semantic Contrastive Learning [67.28140787010447]
Semantic Contrastive Learning (SCL) と呼ばれる新しい変種を紹介します。
従来のコントラスト学習とディープクラスタリングの両方の特徴を探求する。
コントラスト学習と深層クラスタリングの強みを統一的なアプローチで増幅することができる。
論文 参考訳(メタデータ) (2021-03-03T20:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。