論文の概要: Domain-Invariant Prompt Learning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.28555v1
- Date: Mon, 30 Mar 2026 15:18:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.471179
- Title: Domain-Invariant Prompt Learning for Vision-Language Models
- Title(参考訳): 視覚言語モデルのためのドメイン不変プロンプト学習
- Authors: Arsham Gholamzadeh Khoee, Yinan Yu, Robert Feldt,
- Abstract要約: ドメイン一般化のためのドメイン不変コンテキスト最適化(DiCoOp)を提案する。
敵対的なトレーニングアプローチを採用することで、DiCoOpはモデルにドメイン不変のプロンプトを学習させ、分類のための識別力を保持する。
実験の結果,様々な視覚領域にまたがる領域一般化タスクにおいて,DiCoOpはCoOpを一貫して上回っていることがわかった。
- 参考スコア(独自算出の注目度): 6.1887404915953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pre-trained vision-language models like CLIP have transformed computer vision by aligning images and text in a shared feature space, enabling robust zero-shot transfer via prompting. Soft-prompting, such as Context Optimization (CoOp), effectively adapts these models for downstream recognition tasks by learning a set of context vectors. However, CoOp lacks explicit mechanisms for handling domain shifts across unseen distributions. To address this, we propose Domain-invariant Context Optimization (DiCoOp), an extension of CoOp optimized for domain generalization. By employing an adversarial training approach, DiCoOp forces the model to learn domain-invariant prompts while preserving discriminative power for classification. Experimental results show that DiCoOp consistently surpasses CoOp in domain generalization tasks across diverse visual domains.
- Abstract(参考訳): CLIPのような大規模トレーニング済みの視覚言語モデルは、画像とテキストを共有機能空間にアライメントすることでコンピュータビジョンを変換し、プロンプトを通じて堅牢なゼロショット転送を可能にした。
コンテキスト最適化(CoOp)のようなソフトプロンプトは、コンテキストベクトルの集合を学習することで、これらのモデルを下流認識タスクに効果的に適用する。
しかし、CoOpには、目に見えないディストリビューション間でのドメインシフトを処理するための明確なメカニズムが欠けている。
ドメイン一般化に最適化されたCoOpの拡張であるドメイン不変コンテキスト最適化(DiCoOp)を提案する。
敵対的なトレーニングアプローチを採用することで、DiCoOpはモデルにドメイン不変のプロンプトを学習させ、分類のための識別力を保持する。
実験の結果,多種多様な視覚領域にわたる領域一般化タスクにおいて,DiCoOpはCoOpを一貫して上回っていることがわかった。
関連論文リスト
- Split to Merge: Unifying Separated Modalities for Unsupervised Domain
Adaptation [25.499205902426716]
教師なしドメイン適応のための統一モダリティ分離(UniMoS)フレームワークを導入する。
私たちは,CLIPの機能を言語関連コンポーネントと視覚関連コンポーネントに明確に分離する,スウィンブルなモダリティ分離ネットワークを構築した。
モダリティ・アンサンブル・トレーニング(MET)法は,モダリティ・アンサンブル情報の交換を促進する。
論文 参考訳(メタデータ) (2024-03-11T17:33:12Z) - HCVP: Leveraging Hierarchical Contrastive Visual Prompt for Domain
Generalization [69.33162366130887]
ドメイン一般化(DG)は、不変の機能を学ぶことによって、目に見えないシナリオに優れた機械学習モデルを作成するための取り組みである。
モデルにドメインレベルとタスク固有の特性を補足する新しい手法を提案する。
このアプローチは、特定の特徴から不変な特徴をより効果的に分離し、一般化を促進することを目的としている。
論文 参考訳(メタデータ) (2024-01-18T04:23:21Z) - Towards Full-scene Domain Generalization in Multi-agent Collaborative Bird's Eye View Segmentation for Connected and Autonomous Driving [49.03947018718156]
協調的な知覚の訓練と推論の段階で利用される統合されたドメイン一般化フレームワークを提案する。
また、システム内ドメインアライメント機構を導入し、コネクテッドおよび自律走行車間のドメインの差を減らし、潜在的に排除する。
論文 参考訳(メタデータ) (2023-11-28T12:52:49Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - Conditional Prompt Learning for Vision-Language Models [107.06776396086471]
近ごろ提案されたContext Optimization (CoOp) は、文脈単語をプロンプトで学習可能なベクトルの集合に変換する。
CoOpは、CoOpよりもはるかに優れたクラスを非表示に一般化し、単一のデータセットを超える有望な転送可能性を示している。
我々の実験によると、CoCoOpはCoOpよりもはるかに優れたクラスに一般化しており、単一のデータセットを超える有望な転送可能性を示している。
論文 参考訳(メタデータ) (2022-03-10T18:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。