論文の概要: DPA: Dual Prototypes Alignment for Unsupervised Adaptation of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2408.08855v2
- Date: Sun, 01 Dec 2024 14:53:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 20:22:47.522781
- Title: DPA: Dual Prototypes Alignment for Unsupervised Adaptation of Vision-Language Models
- Title(参考訳): DPA:視覚言語モデルの教師なし適応のためのデュアルプロトタイプアライメント
- Authors: Eman Ali, Sathira Silva, Muhammad Haris Khan,
- Abstract要約: 本研究では,視覚-テクスチュアルモデルのための教師なしドメイン適応手法であるDPAを紹介する。
双対プロトタイプの概念を導入し、出力の凸結合とともに別個の分類器として機能する。
それは、特に初期の訓練において、堅牢な自己訓練を促進するために擬似ラベルをランク付けする。
13の下流視覚タスクの実験では、DPAはゼロショットCLIPと最先端の教師なし適応ベースラインを大きく上回っている。
- 参考スコア(独自算出の注目度): 7.649900082537232
- License:
- Abstract: Vision-language models (VLMs), e.g., CLIP, have shown remarkable potential in zero-shot image classification. However, adapting these models to new domains remains challenging, especially in unsupervised settings where labeled data is unavailable. Recent research has proposed pseudo-labeling approaches to adapt CLIP in an unsupervised manner using unlabeled target data. Nonetheless, these methods struggle due to noisy pseudo-labels resulting from the misalignment between CLIP's visual and textual representations. This study introduces DPA, an unsupervised domain adaptation method for VLMs. DPA introduces the concept of dual prototypes, acting as distinct classifiers, along with the convex combination of their outputs, thereby leading to accurate pseudo-label construction. Next, it ranks pseudo-labels to facilitate robust self-training, particularly during early training. Finally, it addresses visual-textual misalignment by aligning textual prototypes with image prototypes to further improve the adaptation performance. Experiments on 13 downstream vision tasks demonstrate that DPA significantly outperforms zero-shot CLIP and the state-of-the-art unsupervised adaptation baselines.
- Abstract(参考訳): 視覚言語モデル(VLM)、例えばCLIPは、ゼロショット画像分類において顕著な可能性を示している。
しかし、特にラベル付きデータが利用できない教師なしの設定では、これらのモデルを新しいドメインに適応することは依然として困難である。
近年の研究では、CLIPを未ラベルのターゲットデータを用いて教師なしの方法で適用するための擬似ラベル方式が提案されている。
それでもこれらの手法は、CLIPの視覚的表現とテキスト的表現のミスアライメントによるノイズの多い擬似ラベルのために苦労している。
本研究では,VLMの教師なし領域適応手法であるDPAを紹介する。
DPAは2つのプロトタイプの概念を導入し、異なる分類器として機能し、出力の凸結合を伴って、正確な擬似ラベルの構成をもたらす。
次に、特に早期訓練において、堅牢な自己訓練を促進するために擬似ラベルをランク付けする。
最後に,テキストプロトタイプを画像プロトタイプと整列させて,適応性能をさらに向上させることにより,視覚的・テキスト的ミスアライメントに対処する。
13の下流視覚タスクの実験では、DPAはゼロショットCLIPと最先端の教師なし適応ベースラインを大きく上回っている。
関連論文リスト
- UMFC: Unsupervised Multi-Domain Feature Calibration for Vision-Language Models [75.77651291095565]
我々は、視覚言語モデルの転送可能性を高めるために、自然に複数のドメインにまたがるラベルのないデータを活用する。
この教師なしマルチドメイン設定の下で、我々はCLIP内の固有モデルバイアスを特定した。
このモデルバイアスを軽減するために,Unsupervised Multi-domain Feature (UMFC)を提案する。
論文 参考訳(メタデータ) (2024-11-11T12:25:02Z) - Fast One-Stage Unsupervised Domain Adaptive Person Search [17.164485293539833]
教師なしの人物探索は、アノテーションなしでシーンイメージのギャラリーセットから特定の対象人物をローカライズすることを目的としている。
本稿では,補完的なドメイン適応とラベル適応を統合したファストワンステージ非教師者探索(FOUS)を提案する。
Fousは、CUHK-SYSUとPRWという2つのベンチマークデータセット上で、最先端(SOTA)のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-05-05T07:15:47Z) - Anomaly Detection by Adapting a pre-trained Vision Language Model [48.225404732089515]
トレーニング済みのCLIPモデルに適応することで,異常検出のためのCLIP-ADAという統合フレームワークを提案する。
学習可能なプロンプトを導入し、自己教師付き学習を通して異常パターンに関連付けることを提案する。
MVTec-AD と VisA の異常検出と局所化のための最新技術 97.5/55.6 と 89.3/33.1 を実現した。
論文 参考訳(メタデータ) (2024-03-14T15:35:07Z) - Unsupervised Prototype Adapter for Vision-Language Models [29.516767588241724]
我々はUnsupervised Prototype Adapter (UP-Adapter)と呼ばれる視覚言語モデルのための教師なし微調整アプローチを設計する。
具体的には、アノテーションのないターゲットデータセットに対して、CLIPのテキストイメージ整合機能を活用して、各クラスに対して最も確実なサンプルを自動的に選択する。
微調整後、プロトタイプモデル予測と元のCLIPの予測を残りの接続で組み合わせて下流認識タスクを実行する。
論文 参考訳(メタデータ) (2023-08-22T15:28:49Z) - UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文 参考訳(メタデータ) (2022-10-23T15:24:47Z) - Semi-Supervised Domain Adaptation with Prototypical Alignment and
Consistency Learning [86.6929930921905]
本稿では,いくつかの対象サンプルがラベル付けされていれば,ドメインシフトに対処するのにどの程度役立つか検討する。
ランドマークの可能性を最大限に追求するために、ランドマークから各クラスのターゲットプロトタイプを計算するプロトタイプアライメント(PA)モジュールを組み込んでいます。
具体的には,ラベル付き画像に深刻な摂動を生じさせ,PAを非自明にし,モデル一般化性を促進する。
論文 参考訳(メタデータ) (2021-04-19T08:46:08Z) - Two-phase Pseudo Label Densification for Self-training based Domain
Adaptation [93.03265290594278]
TPLDと呼ばれる,新規な二相擬似ラベル高密度化フレームワークを提案する。
第1フェーズでは,スライディングウインドウ投票を用いて,画像内の内在的空間相関を利用して,自信のある予測を広める。
第2フェーズでは,信頼度に基づく容易な分類を行う。
トレーニングプロセスの容易化と騒音予測の回避を目的として,ブートストラップ機構の導入を行った。
論文 参考訳(メタデータ) (2020-12-09T02:35:25Z) - Joint Visual and Temporal Consistency for Unsupervised Domain Adaptive
Person Re-Identification [64.37745443119942]
本稿では,局所的なワンホット分類とグローバルなマルチクラス分類を組み合わせることで,視覚的・時間的整合性を両立させる。
3つの大規模ReIDデータセットの実験結果は、教師なしと教師なしの両方のドメイン適応型ReIDタスクにおいて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2020-07-21T14:31:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。