論文の概要: SHED: Style-Homogenized Embedding Alignment for Domain Generalization
- arxiv url: http://arxiv.org/abs/2605.16973v1
- Date: Sat, 16 May 2026 12:51:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.398134
- Title: SHED: Style-Homogenized Embedding Alignment for Domain Generalization
- Title(参考訳): SHED:ドメイン一般化のためのスタイル均質な埋め込みアライメント
- Authors: Kai Gan, Tong Wei,
- Abstract要約: ドメイン一般化のためのスタイル均質な埋め込みアライメントを提案する。
SHEDはCLIPのエンコーダの生の表現の代わりに、スタイル均質な埋め込みを調整する。
SHEDが最先端のパフォーマンスを達成することを示す5つのベンチマークの実験。
- 参考スコア(独自算出の注目度): 13.548252728962966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain generalization aims to enhance model robustness against unseen domains with embedding distribution shifts. While large-scale vision-language models like CLIP exhibit strong generalization, their direct image-text embedding alignment suffers from inherent information asymmetry: images encode both class semantics and domain-specific styles, whereas text prompts primarily convey basic class cues. This asymmetry hinders generalization to novel domains in realistic scenarios. To address this, we propose Style-Homogenized Embedding alignment for Domain-generalization (SHED), a novel CLIP-based method that aligns style-homogenized embeddings instead of raw representations from encoders in CLIP. During training, SHED removes domain-specific style centroids from both image embeddings computed per source domains and text embeddings which are averaged across diverse prompt templates and stripped of a global centroid. For inference, considering the lack of target domain information, SHED projects diverse textual domain centroids into the visual space and aggregates predictions via membership weighting. Extensive experiments on five benchmarks show SHED achieves state-of-the-art performance, outperforming prior methods significantly (e.g., +4.0\% on DomainNet vs. standard fine-tuning).
- Abstract(参考訳): ドメインの一般化は、埋め込み分布シフトを伴う見えないドメインに対するモデルの堅牢性を高めることを目的としている。
CLIPのような大規模視覚言語モデルは強力な一般化を示すが、直接画像テキストの埋め込みアライメントは固有の情報非対称性に悩まされている。
この非対称性は、現実的なシナリオにおける新しい領域への一般化を妨げる。
そこで本研究では,CLIPにおけるエンコーダの生表現の代わりに,スタイル均質な埋め込みを整列する新しいCLIP法である,ドメイン一般化のためのスタイル均質化埋め込みアライメントを提案する。
トレーニング中、SHEDは、ソースドメイン毎に計算されたイメージ埋め込みと、さまざまなプロンプトテンプレートで平均化され、グローバルなセントロイドから取り除かれたテキスト埋め込みの両方から、ドメイン固有のスタイルのセントロイドを除去する。
推論では、対象とするドメイン情報の欠如を考慮して、SHEDは様々なテキストドメインセントロイドを視覚空間に投影し、メンバーシップ重み付けによって予測を集約する。
5つのベンチマークにおいて、SHEDは最先端のパフォーマンスを達成し、先行手法を著しく上回っている(例:DomainNet対標準微調整)。
関連論文リスト
- Federated Joint Learning for Domain and Class Generalization [15.177261433209301]
textbfFedDCGは、フェデレートされた学習環境におけるクラスとドメインの一般化に対処する新しいアプローチである。
textbfFedDCGは、精度と堅牢性の点で最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-01-18T04:24:11Z) - Text-Driven Causal Representation Learning for Source-Free Domain Generalization [82.75041792888274]
我々は、ソースフリー領域一般化設定に因果推論を統合する最初の方法であるTDCRLを提案する。
我々のアプローチは、堅牢でドメイン不変な特徴を達成するための明確で効果的なメカニズムを提供し、堅牢な一般化を保証する。
論文 参考訳(メタデータ) (2025-07-14T06:20:42Z) - Prompt Disentanglement via Language Guidance and Representation Alignment for Domain Generalization [75.88719716002014]
ドメイン一般化 (Domain Generalization, DG) は、目に見えないターゲットドメインに対して効果的に機能する汎用モデルの開発を目指している。
VFM(Pre-trained Visual Foundation Models)の最近の進歩は、ディープラーニングモデルの一般化能力を向上する大きな可能性を示している。
VFMの制御可能で柔軟な言語プロンプトを活用することで,この問題に対処することを提案する。
論文 参考訳(メタデータ) (2025-07-03T03:52:37Z) - In the Era of Prompt Learning with Vision-Language Models [1.060608983034705]
ドメイン一般化のためのドメインに依存しない新しい学習戦略であるtextscStyLIP を紹介する。
StyLIPは、スタイルプロジェクタを使用してドメイン固有のプロンプトトークンを学習することで、CLIPsビジョンエンコーダの視覚スタイルとコンテンツを切り離す。
また,CLIPの凍結視覚バックボーンを利用した非教師なし領域適応(DA)のためのAD-CLIPを提案する。
論文 参考訳(メタデータ) (2024-11-07T17:31:21Z) - StyDeSty: Min-Max Stylization and Destylization for Single Domain Generalization [85.18995948334592]
単一のドメインの一般化(単一DG)は、単一のトレーニングドメインからのみ見えないドメインに一般化可能な堅牢なモデルを学ぶことを目的としている。
最先端のアプローチは、主に新しいデータを合成するために、敵対的な摂動やスタイルの強化といったデータ拡張に頼っている。
データ拡張の過程で、ソースと擬似ドメインのアライメントを明示的に考慮したemphStyDeStyを提案する。
論文 参考訳(メタデータ) (2024-06-01T02:41:34Z) - Instance-Aware Domain Generalization for Face Anti-Spoofing [42.36157210235893]
Face Anti-Spoofing (FAS) は、最近、目に見えないシナリオの一般化を改善するために研究されている。
従来の手法では、各ドメインの分布を整列してドメイン不変表現を学習するためにドメインラベルに依存していた。
ドメインラベルを必要とせずに、インスタンスレベルで機能を整列するDG FASの新しい視点を提案する。
論文 参考訳(メタデータ) (2023-04-12T06:41:16Z) - Compound Domain Generalization via Meta-Knowledge Encoding [55.22920476224671]
マルチモーダル分布を再正規化するために,スタイル駆動型ドメイン固有正規化(SDNorm)を導入する。
組込み空間における関係モデリングを行うために,プロトタイプ表現,クラスセントロイドを利用する。
4つの標準ドメイン一般化ベンチマークの実験により、COMENはドメインの監督なしに最先端のパフォーマンスを上回ることが判明した。
論文 参考訳(メタデータ) (2022-03-24T11:54:59Z) - Structured Latent Embeddings for Recognizing Unseen Classes in Unseen
Domains [108.11746235308046]
本稿では,異なる領域からの画像を投影することで,ドメインに依存しない遅延埋め込みを学習する手法を提案する。
挑戦的なDomainNetとDomainNet-LSベンチマークの実験は、既存のメソッドよりもアプローチの方が優れていることを示している。
論文 参考訳(メタデータ) (2021-07-12T17:57:46Z) - Classes Matter: A Fine-grained Adversarial Approach to Cross-domain
Semantic Segmentation [95.10255219396109]
クラスレベルの特徴アライメントのための微粒な逆学習戦略を提案する。
ドメイン区別器として機能するだけでなく、クラスレベルでドメインを区別する、きめ細かいドメイン識別器を採用しています。
CCD (Class Center Distance) を用いた解析により, 粒度の細かい対角戦略により, クラスレベルのアライメントが向上することが確認された。
論文 参考訳(メタデータ) (2020-07-17T20:50:59Z) - Contextual-Relation Consistent Domain Adaptation for Semantic
Segmentation [44.19436340246248]
本稿では,革新的局所文脈相関整合ドメイン適応手法を提案する。
グローバルレベルのアライメントにおいて、地域レベルのコンピテンシーを達成することを目的としている。
実験では, 最先端手法と比較して, セグメンテーション性能が優れていることを示した。
論文 参考訳(メタデータ) (2020-07-05T19:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。