論文の概要: UMFC: Unsupervised Multi-Domain Feature Calibration for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2411.06921v1
- Date: Mon, 11 Nov 2024 12:25:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:09:08.055832
- Title: UMFC: Unsupervised Multi-Domain Feature Calibration for Vision-Language Models
- Title(参考訳): UMFC:ビジョンランゲージモデルのための教師なしマルチドメイン特徴校正
- Authors: Jiachen Liang, Ruibing Hou, Minyang Hu, Hong Chang, Shiguang Shan, Xilin Chen,
- Abstract要約: 我々は、視覚言語モデルの転送可能性を高めるために、自然に複数のドメインにまたがるラベルのないデータを活用する。
この教師なしマルチドメイン設定の下で、我々はCLIP内の固有モデルバイアスを特定した。
このモデルバイアスを軽減するために,Unsupervised Multi-domain Feature (UMFC)を提案する。
- 参考スコア(独自算出の注目度): 75.77651291095565
- License:
- Abstract: Pre-trained vision-language models (e.g., CLIP) have shown powerful zero-shot transfer capabilities. But they still struggle with domain shifts and typically require labeled data to adapt to downstream tasks, which could be costly. In this work, we aim to leverage unlabeled data that naturally spans multiple domains to enhance the transferability of vision-language models. Under this unsupervised multi-domain setting, we have identified inherent model bias within CLIP, notably in its visual and text encoders. Specifically, we observe that CLIP's visual encoder tends to prioritize encoding domain over discriminative category information, meanwhile its text encoder exhibits a preference for domain-relevant classes. To mitigate this model bias, we propose a training-free and label-free feature calibration method, Unsupervised Multi-domain Feature Calibration (UMFC). UMFC estimates image-level biases from domain-specific features and text-level biases from the direction of domain transition. These biases are subsequently subtracted from original image and text features separately, to render them domain-invariant. We evaluate our method on multiple settings including transductive learning and test-time adaptation. Extensive experiments show that our method outperforms CLIP and performs on par with the state-of-the-arts that need additional annotations or optimization. Our code is available at https://github.com/GIT-LJc/UMFC.
- Abstract(参考訳): 事前訓練された視覚言語モデル(例えばCLIP)は、強力なゼロショット転送機能を示している。
しかし、彼らはドメインシフトに苦慮し、通常、ダウンストリームタスクに適応するためにラベル付きデータを要求します。
本研究では,視覚言語モデルの伝達性を高めるために,自然に複数の領域にまたがるラベルのないデータを活用することを目的とする。
この教師なしマルチドメイン設定では、特に視覚的およびテキストエンコーダにおいて、CLIP内の固有モデルバイアスを特定した。
具体的には、CLIPの視覚エンコーダが識別カテゴリ情報よりもドメインのエンコーダを優先する傾向にあるのに対し、テキストエンコーダはドメイン関連クラスを優先する傾向にある。
このモデルのバイアスを軽減するために、トレーニング不要でラベルなしな特徴校正手法、Unsupervised Multi-domain Feature Calibration (UMFC)を提案する。
UMFCはドメイン固有の特徴から画像レベルのバイアスを推定し、ドメイン遷移の方向からテキストレベルのバイアスを推定する。
これらのバイアスはその後、元の画像とテキストの特徴を別々に減じて、ドメイン不変を描画する。
提案手法は,トランスダクティブ学習とテスト時間適応を含む複数の設定で評価する。
大規模な実験により、我々のメソッドはCLIPよりも優れており、追加のアノテーションや最適化を必要とする最先端の手法と同等の性能を発揮することが示された。
私たちのコードはhttps://github.com/GIT-LJc/UMFCで利用可能です。
関連論文リスト
- Domain-knowledge Inspired Pseudo Supervision (DIPS) for Unsupervised
Image-to-Image Translation Models to Support Cross-Domain Classification [16.4151067682813]
本稿ではDIPS(Domain-knowledge Inspired Pseudo Supervision)と呼ばれる新しい手法を提案する。
DIPSはドメインインフォームド・ガウス混合モデルを使用して疑似アノテーションを生成し、従来の教師付きメトリクスの使用を可能にする。
最適保存チェックポイントモデルを選択する際に、FIDを含む様々なGAN評価指標を上回り、その効果を実証する。
論文 参考訳(メタデータ) (2023-03-18T02:42:18Z) - Continual Unsupervised Domain Adaptation for Semantic Segmentation using
a Class-Specific Transfer [9.46677024179954]
セグメンテーションモデルは 目に見えない領域に一般化しません
2つのクラス条件のAdaIN層を組み込んだ軽量なスタイル転送フレームワークを提案する。
合成シーケンスに対する我々のアプローチを広く検証し、さらに実領域からなる挑戦的なシーケンスを提案する。
論文 参考訳(メタデータ) (2022-08-12T21:30:49Z) - Domain Adaptation via Prompt Learning [39.97105851723885]
Unsupervised Domain Adaption (UDA) は、十分にアノテーションされたソースドメインから学習したモデルをターゲットドメインに適応させることを目的としている。
我々は,Prompt Learning (DAPL) によるドメイン適応という,UDAのための新しいプロンプト学習パラダイムを導入する。
論文 参考訳(メタデータ) (2022-02-14T13:25:46Z) - Cross-domain Contrastive Learning for Unsupervised Domain Adaptation [108.63914324182984]
教師なしドメイン適応(Unsupervised domain adapt、UDA)は、完全にラベル付けされたソースドメインから異なるラベル付けされていないターゲットドメインに学習した知識を転送することを目的としている。
対照的な自己教師型学習に基づいて、トレーニングとテストセット間のドメインの相違を低減するために、機能を整列させます。
論文 参考訳(メタデータ) (2021-06-10T06:32:30Z) - Semi-Supervised Domain Adaptation with Prototypical Alignment and
Consistency Learning [86.6929930921905]
本稿では,いくつかの対象サンプルがラベル付けされていれば,ドメインシフトに対処するのにどの程度役立つか検討する。
ランドマークの可能性を最大限に追求するために、ランドマークから各クラスのターゲットプロトタイプを計算するプロトタイプアライメント(PA)モジュールを組み込んでいます。
具体的には,ラベル付き画像に深刻な摂動を生じさせ,PAを非自明にし,モデル一般化性を促進する。
論文 参考訳(メタデータ) (2021-04-19T08:46:08Z) - Instance Level Affinity-Based Transfer for Unsupervised Domain
Adaptation [74.71931918541748]
ILA-DAと呼ばれる適応中のソースからターゲットへの転送に対するインスタンス親和性に基づく基準を提案する。
まず、ソースとターゲットをまたいだ類似および異種サンプルを抽出し、マルチサンプルのコントラスト損失を利用してドメインアライメントプロセスを駆動する信頼性が高く効率的な手法を提案する。
ILA-DAの有効性は、様々なベンチマークデータセットに対する一般的なドメイン適応手法よりも精度が一貫した改善を観察することによって検証する。
論文 参考訳(メタデータ) (2021-04-03T01:33:14Z) - Surprisingly Simple Semi-Supervised Domain Adaptation with Pretraining
and Consistency [93.89773386634717]
ビジュアルドメイン適応は、異なるソースドメインで利用可能なラベルを使用して、ターゲットのビジュアルドメインからイメージを分類する学習を含む。
いくつかの目標ラベルが存在する場合、(回転予測による)自己スーパービジョンや整合正則化といった単純な手法が、適切な目標分類器を学習するための対角アライメントなしで有効であることを示す。
我々の事前学習と一貫性(PAC)アプローチは、この半教師付きドメイン適応タスクにおいて、複数のデータセットにまたがる複数の対向的なドメインアライメント手法を超越して、技術精度を達成することができる。
論文 参考訳(メタデータ) (2021-01-29T18:40:17Z) - Curriculum CycleGAN for Textual Sentiment Domain Adaptation with
Multiple Sources [68.31273535702256]
我々は,C-CycleGAN(C-CycleGAN)という,新しいインスタンスレベルのMDAフレームワークを提案する。
C-CycleGANは、(1)異なるドメインからのテキスト入力を連続的な表現空間にエンコードする事前訓練されたテキストエンコーダ、(2)ソースとターゲットドメイン間のギャップを埋めるカリキュラムインスタンスレベルの適応を伴う中間ドメインジェネレータ、(3)中間ドメインで最終感情分類のために訓練されたタスク分類器の3つのコンポーネントから構成される。
3つのベンチマークデータセットに対して広範な実験を行い、最先端のDAアプローチよりも大幅に向上した。
論文 参考訳(メタデータ) (2020-11-17T14:50:55Z) - Feature Adaptation of Pre-Trained Language Models across Languages and
Domains with Robust Self-Training [47.12438995938133]
我々は、訓練済み言語モデル(PrLM)を微調整なしで新しいドメインに適用する。
PrLMから識別的特徴を学習するために,クラス認識型自己蒸留(CFd)を提案する。
2つの単言語および多言語Amazonレビューデータセットの実験は、CFdが継続的に自己学習のパフォーマンスを改善することができることを示している。
論文 参考訳(メタデータ) (2020-09-24T08:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。