論文の概要: CoDoL: Conditional Domain Prompt Learning for Out-of-Distribution Generalization
- arxiv url: http://arxiv.org/abs/2509.15330v1
- Date: Thu, 18 Sep 2025 18:23:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.862851
- Title: CoDoL: Conditional Domain Prompt Learning for Out-of-Distribution Generalization
- Title(参考訳): CoDoL: アウト・オブ・ディストリビューション一般化のための条件付きドメインプロンプト学習
- Authors: Min Zhang, Bo Jiang, Jie Zhou, Yimeng Liu, Xin Lin,
- Abstract要約: 本稿では,OOD一般化性能を向上させるための条件付きドメインプロンプト学習(CoDoL)手法を提案する。
インスタンス固有の情報とドメイン固有の情報の両方をキャプチャするために,各領域の画像に対して入力条件トークンを生成する軽量なドメインメタネットワーク(DMN)を提案する。
- 参考スコア(独自算出の注目度): 29.68273957414245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in pre-training vision-language models (VLMs), e.g., contrastive language-image pre-training (CLIP) methods, have shown great potential in learning out-of-distribution (OOD) representations. Despite showing competitive performance, the prompt-based CLIP methods still suffer from: i) inaccurate text descriptions, which leads to degraded accuracy and robustness, and poses a challenge for zero-shot CLIP methods. ii) limited vision-language embedding alignment, which significantly affects the generalization performance. To tackle the above issues, this paper proposes a novel Conditional Domain prompt Learning (CoDoL) method, which utilizes readily-available domain information to form prompts and improves the vision-language embedding alignment for improving OOD generalization. To capture both instance-specific and domain-specific information, we further propose a lightweight Domain Meta Network (DMN) to generate input-conditional tokens for images in each domain. Extensive experiments on four OOD benchmarks (PACS, VLCS, OfficeHome and DigitDG) validate the effectiveness of our proposed CoDoL in terms of improving the vision-language embedding alignment as well as the out-of-distribution generalization performance.
- Abstract(参考訳): 事前学習型視覚言語モデル(VLM)の最近の進歩、例えば、対照的な言語画像事前学習(CLIP)手法は、アウト・オブ・ディストリビューション(OOD)表現を学習する大きな可能性を示している。
競争力のあるパフォーマンスを示すにもかかわらず、プロンプトベースのCLIPメソッドは、まだ苦しめられている。
i)不正確なテキスト記述は、精度と堅牢性を低下させ、ゼロショットCLIPメソッドに挑戦する。
ii) 視覚言語埋め込みアライメントの制限は, 一般化性能に大きな影響を及ぼす。
上記の課題に対処するために,手軽に利用できるドメイン情報を用いてプロンプトを作成し,OOD一般化を改善するための視覚言語埋め込みアライメントを改善する条件付きドメインプロンプト学習(CoDoL)手法を提案する。
インスタンス固有の情報とドメイン固有の情報の両方をキャプチャするために,各領域の画像に対して入力条件トークンを生成する軽量なドメインメタネットワーク(DMN)を提案する。
4つのOODベンチマーク(PACS, VLCS, OfficeHome, DigitDG)の大規模な実験により、視覚言語による埋め込みアライメントの改善と、分布外一般化性能の向上の観点から、提案したCoDoLの有効性が検証された。
関連論文リスト
- Preserving Clusters in Prompt Learning for Unsupervised Domain Adaptation [29.809079908218607]
この研究は、ベース擬似ラベルを強化し、ターゲット・プロンプト学習を促進する新しいソリューションを導入している。
まず、ソースとターゲットの視覚的埋め込みの関係に基づき、参照予測を活用することを提案する。
その後、事前学習したマルチモーダルモデルにおいて、視覚とテキストの埋め込みの間に強いクラスタリングの挙動が観察されていることを示した。
論文 参考訳(メタデータ) (2025-06-13T06:33:27Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Unified Language-driven Zero-shot Domain Adaptation [55.64088594551629]
Unified Language-driven Zero-shot Domain Adaptation (ULDA)は、新しいタスクセットである。
これにより、ドメインIDの知識を明示することなく、単一のモデルを多様なターゲットドメインに適応させることができる。
論文 参考訳(メタデータ) (2024-04-10T16:44:11Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - StyLIP: Multi-Scale Style-Conditioned Prompt Learning for CLIP-based
Domain Generalization [26.08922351077744]
StyLIPは、ドメイン間のCLIPの分類性能を高める、ドメインの一般化のための新しいアプローチである。
提案手法は,CLIPの事前学習された視覚エンコーダに埋め込まれた視覚的スタイルとコンテンツ情報を切り離すことを目的とした,ドメインに依存しないプロンプト学習戦略に焦点をあてる。
論文 参考訳(メタデータ) (2023-02-18T07:36:16Z) - Learning Domain Invariant Prompt for Vision-Language Models [31.581652862478965]
本稿では,メタプロンプト(MetaPrompt)と呼ばれる未確認領域に一般化可能な,固有領域不変プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。
我々の手法は既存の手法より一貫して大幅に優れています。
論文 参考訳(メタデータ) (2022-12-08T11:23:24Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。