論文の概要: Preserving Clusters in Prompt Learning for Unsupervised Domain Adaptation
- arxiv url: http://arxiv.org/abs/2506.11493v1
- Date: Fri, 13 Jun 2025 06:33:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.677564
- Title: Preserving Clusters in Prompt Learning for Unsupervised Domain Adaptation
- Title(参考訳): 教師なしドメイン適応のためのプロンプト学習におけるクラスタ保存
- Authors: Tung-Long Vuong, Hoang Phan, Vy Vo, Anh Bui, Thanh-Toan Do, Trung Le, Dinh Phung,
- Abstract要約: この研究は、ベース擬似ラベルを強化し、ターゲット・プロンプト学習を促進する新しいソリューションを導入している。
まず、ソースとターゲットの視覚的埋め込みの関係に基づき、参照予測を活用することを提案する。
その後、事前学習したマルチモーダルモデルにおいて、視覚とテキストの埋め込みの間に強いクラスタリングの挙動が観察されていることを示した。
- 参考スコア(独自算出の注目度): 29.809079908218607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent approaches leveraging multi-modal pre-trained models like CLIP for Unsupervised Domain Adaptation (UDA) have shown significant promise in bridging domain gaps and improving generalization by utilizing rich semantic knowledge and robust visual representations learned through extensive pre-training on diverse image-text datasets. While these methods achieve state-of-the-art performance across benchmarks, much of the improvement stems from base pseudo-labels (CLIP zero-shot predictions) and self-training mechanisms. Thus, the training mechanism exhibits a key limitation wherein the visual embedding distribution in target domains can deviate from the visual embedding distribution in the pre-trained model, leading to misguided signals from class descriptions. This work introduces a fresh solution to reinforce these pseudo-labels and facilitate target-prompt learning, by exploiting the geometry of visual and text embeddings - an aspect that is overlooked by existing methods. We first propose to directly leverage the reference predictions (from source prompts) based on the relationship between source and target visual embeddings. We later show that there is a strong clustering behavior observed between visual and text embeddings in pre-trained multi-modal models. Building on optimal transport theory, we transform this insight into a novel strategy to enforce the clustering property in text embeddings, further enhancing the alignment in the target domain. Our experiments and ablation studies validate the effectiveness of the proposed approach, demonstrating superior performance and improved quality of target prompts in terms of representation.
- Abstract(参考訳): CLIP for Unsupervised Domain Adaptation (UDA)のようなマルチモーダル事前学習モデルを活用する最近のアプローチは、多様な画像テキストデータセットの広範な事前学習を通じて学習したリッチなセマンティック知識と堅牢な視覚表現を活用することで、ドメインギャップをブリッジし、一般化を改善する上で大きな可能性を示している。
これらの手法はベンチマーク全体にわたって最先端のパフォーマンスを達成するが、改善の多くはベース擬似ラベル(CLIPゼロショット予測)と自己学習機構に起因している。
このように、トレーニング機構は、対象領域における視覚埋め込み分布が、事前訓練されたモデルの視覚埋め込み分布から逸脱し、クラス記述からの誤案内信号となるようなキー制限を示す。
この研究は、これらの擬似ラベルを強化し、視覚とテキストの埋め込みの幾何学(既存の手法で見落としている側面)を活用することによって、ターゲット・プロンプト学習を促進する新しいソリューションを導入する。
まず、ソースとターゲットの視覚的埋め込みの関係に基づいて、参照予測(ソースプロンプトから)を直接活用することを提案する。
その後、事前学習したマルチモーダルモデルにおいて、視覚とテキストの埋め込みの間に強いクラスタリングの挙動が観察されていることを示した。
最適輸送理論に基づいて、この知見を新たな戦略に変換し、テキスト埋め込みにおけるクラスタリング特性を強制し、ターゲット領域のアライメントをさらに強化する。
提案手法の有効性を検証し,提案手法の有効性を検証した。
関連論文リスト
- OSLoPrompt: Bridging Low-Supervision Challenges and Open-Set Domain Generalization in CLIP [15.780915391081734]
低ショットオープンセット領域一般化(LSOSDG)は、オープンセットドメイン一般化(ODG)と低ショット学習を統合する新しいパラダイムである。
提案するOSLOPROMPTは,CLIPのための先進的なプロンプトラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-03-20T12:51:19Z) - ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - Prompt-Driven Contrastive Learning for Transferable Adversarial Attacks [42.18755809782401]
PDCL-Attackと呼ばれる新しいトランスファー攻撃法を提案する。
テキストのセマンティック表現力を利用して効果的なプロンプト駆動型特徴ガイダンスを定式化する。
論文 参考訳(メタデータ) (2024-07-30T08:52:16Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - Deep face recognition with clustering based domain adaptation [57.29464116557734]
そこで本研究では,ターゲットドメインとソースがクラスを共有しない顔認識タスクを対象とした,クラスタリングに基づく新しいドメイン適応手法を提案する。
本手法は,特徴領域をグローバルに整列させ,その一方で,対象クラスタを局所的に識別することで,識別対象特徴を効果的に学習する。
論文 参考訳(メタデータ) (2022-05-27T12:29:11Z) - Learning Rich Nearest Neighbor Representations from Self-supervised
Ensembles [60.97922557957857]
推論時間における勾配降下から直接表現を学習する新しい手法により、自己教師付きモデルアンサンブルを行うためのフレームワークを提供する。
この技術は、ドメイン内のデータセットと転送設定の両方において、k-nearestの隣人によって測定されるように、表現品質を改善する。
論文 参考訳(メタデータ) (2021-10-19T22:24:57Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。