論文の概要: Domain Adaptation with a Single Vision-Language Embedding
- arxiv url: http://arxiv.org/abs/2410.21361v1
- Date: Mon, 28 Oct 2024 17:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:41:47.311467
- Title: Domain Adaptation with a Single Vision-Language Embedding
- Title(参考訳): 単一視覚言語埋め込みによるドメイン適応
- Authors: Mohammad Fahes, Tuan-Hung Vu, Andrei Bursuc, Patrick Pérez, Raoul de Charette,
- Abstract要約: 本稿では,完全なターゲットデータではなく,単一のVision-Language (VL)遅延埋め込みに依存する,ドメイン適応のための新しいフレームワークを提案する。
これらのマイニングスタイルは、ゼロショット(ターゲットフリー)とワンショットアン教師なしドメイン適応に使用できることを示す。
- 参考スコア(独自算出の注目度): 45.93202559299953
- License:
- Abstract: Domain adaptation has been extensively investigated in computer vision but still requires access to target data at the training time, which might be difficult to obtain in some uncommon conditions. In this paper, we present a new framework for domain adaptation relying on a single Vision-Language (VL) latent embedding instead of full target data. First, leveraging a contrastive language-image pre-training model (CLIP), we propose prompt/photo-driven instance normalization (PIN). PIN is a feature augmentation method that mines multiple visual styles using a single target VL latent embedding, by optimizing affine transformations of low-level source features. The VL embedding can come from a language prompt describing the target domain, a partially optimized language prompt, or a single unlabeled target image. Second, we show that these mined styles (i.e., augmentations) can be used for zero-shot (i.e., target-free) and one-shot unsupervised domain adaptation. Experiments on semantic segmentation demonstrate the effectiveness of the proposed method, which outperforms relevant baselines in the zero-shot and one-shot settings.
- Abstract(参考訳): ドメイン適応はコンピュータビジョンにおいて広く研究されてきたが、トレーニング時にターゲットデータにアクセスする必要がある。
本稿では,完全なターゲットデータではなく,単一のVision-Language (VL)遅延埋め込みをベースとした,ドメイン適応のための新しいフレームワークを提案する。
まず、対照的な言語イメージ事前学習モデル(CLIP)を活用し、プロンプト/フォト駆動型インスタンス正規化(PIN)を提案する。
PINは、低レベルのソース特徴のアフィン変換を最適化することにより、単一のターゲットVL遅延埋め込みを用いて複数の視覚スタイルをマイニングする機能拡張手法である。
VL埋め込みは、ターゲットドメインを記述する言語プロンプト、部分的に最適化された言語プロンプト、ラベルのない単一のターゲットイメージから得ることができる。
第二に、これらのマイニングスタイル(すなわち、拡張)がゼロショット(すなわち、ターゲットフリー)とワンショットアン教師なしドメイン適応に使用できることを示す。
セマンティックセグメンテーションの実験は、ゼロショットとワンショットの設定において、関連するベースラインよりも優れた性能を示す提案手法の有効性を示す。
関連論文リスト
- Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
局所性アライメント(Locality alignment)と呼ばれる,視覚障害者のための新しい学習段階を提案する。
局所性に整合したバックボーンは、様々なベンチマークでパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Phrase Grounding-based Style Transfer for Single-Domain Generalized
Object Detection [109.58348694132091]
単一ドメインの一般化オブジェクト検出は、複数の未確認対象ドメインに対するモデルの一般化性を高めることを目的としている。
これは、ターゲットのドメインデータをトレーニングに組み込むことなく、ドメインシフトに対処するモデルを必要とするため、実用的だが難しいタスクである。
そこで我々は,課題に対する新しい文節接頭辞に基づくスタイル伝達手法を提案する。
論文 参考訳(メタデータ) (2024-02-02T10:48:43Z) - The Unreasonable Effectiveness of Large Language-Vision Models for
Source-free Video Domain Adaptation [56.61543110071199]
Source-Free Video Unsupervised Domain Adaptation (SFVUDA)タスクは、ラベル付きソースデータセットでトレーニングされたアクション認識モデルを、ラベル付きターゲットデータセットに適応させることによって構成される。
従来のアプローチでは、ターゲットデータ自体から派生した自己スーパービジョンを活用してSFVUDAに対処しようと試みてきた。
我々は、LLVMがドメインシフトに対して驚くほど堅牢になる前に、リッチな世界を含むという理論によって、LLVM(Large Language-Vision Models)から"web-supervision"を利用するアプローチを取る。
論文 参考訳(メタデータ) (2023-08-17T18:12:05Z) - IFSeg: Image-free Semantic Segmentation via Vision-Language Model [67.62922228676273]
目的は,対象のセマンティックなカテゴリの集合にのみ依存するセマンティックセマンティックセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなタスクを実現することである。
本研究では、ランダムな意味圏の2次元マップと、対応する単語トークンの別のマップを作成することで、この人工的なトレーニングデータを構築する。
本モデルでは,本課題の効果的なベースラインを確立するだけでなく,既存手法と比較して高い性能を示す。
論文 参考訳(メタデータ) (2023-03-25T08:19:31Z) - P{\O}DA: Prompt-driven Zero-shot Domain Adaptation [27.524962843495366]
我々は,対象領域の自然言語,すなわちプロンプトの一般的な記述のみを用いて,ソースドメイン上で訓練されたモデルを適用する。
本稿では,これらのプロンプト駆動による拡張が,セマンティックセグメンテーションのためのゼロショットドメイン適応の実行に有効であることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。