論文の概要: Prompt Ensemble Self-training for Open-Vocabulary Domain Adaptation
- arxiv url: http://arxiv.org/abs/2306.16658v1
- Date: Thu, 29 Jun 2023 03:39:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 14:58:53.613913
- Title: Prompt Ensemble Self-training for Open-Vocabulary Domain Adaptation
- Title(参考訳): 開語彙領域適応のためのプロンプトアンサンブル自己学習
- Authors: Jiaxing Huang, Jingyi Zhang, Han Qiu, Sheng Jin, Shijian Lu
- Abstract要約: 我々は、新しい教師なしドメイン適応フレームワークであるオープン語彙ドメイン適応(OVDA)について研究する。
視覚と言語間の相乗効果を利用したPEST(Prompt Ensemble Self-Trening)技術の設計を行う。
PESTは、10の画像認識タスクで最先端のタスクを一貫して上回る。
- 参考スコア(独自算出の注目度): 45.02052030837188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional domain adaptation assumes the same vocabulary across source and
target domains, which often struggles with limited transfer flexibility and
efficiency while handling target domains with different vocabularies. Inspired
by recent vision-language models (VLMs) that enable open-vocabulary visual
recognition by reasoning on both images and texts, we study open-vocabulary
domain adaptation (OVDA), a new unsupervised domain adaptation framework that
positions a pre-trained VLM as the source model and transfers it towards
arbitrary unlabelled target domains. To this end, we design a Prompt Ensemble
Self-training (PEST) technique that exploits the synergy between vision and
language to mitigate the domain discrepancies in image and text distributions
simultaneously. Specifically, PEST makes use of the complementary property of
multiple prompts within and across vision and language modalities, which
enables joint exploitation of vision and language information and effective
learning of image-text correspondences in the unlabelled target domains.
Additionally, PEST captures temporal information via temporal prompt ensemble
which helps memorize previously learnt target information. Extensive
experiments show that PEST outperforms the state-of-the-art consistently across
10 image recognition tasks.
- Abstract(参考訳): 従来のドメイン適応はソースドメインとターゲットドメインで同じ語彙を前提としており、異なる語彙でターゲットドメインを扱いながら、転送の柔軟性と効率の制限に悩まされることが多い。
画像とテキストの両方を推論してオープン語彙の視覚認識を可能にする最近の視覚言語モデル(VLM)に触発されて、未学習のVLMをソースモデルとして配置し、任意の未学習のターゲットドメインに転送する、新しい教師なしドメイン適応フレームワークであるオープン語彙ドメイン適応(OVDA)について検討する。
この目的のために,視覚と言語間の相乗効果を利用して画像とテキストの分布における領域差を同時に緩和するPEST(Prompt Ensemble Self-training)手法を設計する。
特に、ペストは視覚および言語モダリティ内および言語間における複数のプロンプトの相補的特性を利用し、視覚情報と言語情報の共用と、ラベルなしのターゲットドメインにおける画像-テキスト対応の効果的な学習を可能にする。
さらに、PESTは時間的プロンプトアンサンブルを通じて時間的情報をキャプチャし、学習済みのターゲット情報を記憶するのに役立つ。
大規模な実験により、PESTは10の画像認識タスクにおいて、最先端のタスクを一貫して上回ります。
関連論文リスト
- WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。
まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。
WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:46:27Z) - Domain-Agnostic Mutual Prompting for Unsupervised Domain Adaptation [27.695825570272874]
従来のUnsupervised Domain Adaptation (UDA)は、ドメイン間の分散の差を最小限にしようと努力している。
ドメイン非依存型Multual Prompting (DAMP) を提案する。
3つのUDAベンチマークの実験は、最先端のアプローチよりもDAMPの方が優れていることを示した。
論文 参考訳(メタデータ) (2024-03-05T12:06:48Z) - VLLaVO: Mitigating Visual Gap through LLMs [7.352822795984628]
クロスドメイン学習は、トレーニングとテストデータのドメインシフトを減らすために、ドメイン不変の知識を抽出することを目的としている。
視覚言語モデルと大規模言語モデルを組み合わせたVLLaVOを提案する。
論文 参考訳(メタデータ) (2024-01-06T16:33:39Z) - Domain Prompt Learning with Quaternion Networks [49.45309818782329]
本稿では、ドメイン固有の基礎モデルからドメイン固有の知識を活用して、ビジョン言語モデルの堅牢な認識能力を特定ドメインに転送することを提案する。
本稿では、階層型言語プロンプト特徴とドメイン固有の視覚特徴との間のモーダル関係を解析することにより、視覚プロンプト特徴を生成する階層型アプローチを提案する。
提案手法は,即時学習のための新しい最先端結果を実現する。
論文 参考訳(メタデータ) (2023-12-12T08:49:39Z) - OV-VG: A Benchmark for Open-Vocabulary Visual Grounding [33.02137080950678]
この研究は、新規で挑戦的なオープンボキャブラリ視覚タスクを導入している。
包括的な目的は、言語記述と新しいオブジェクトのローカライゼーションの関連を確立することである。
我々は、7,272 OV-VG画像と1,000 OV-PL画像を含むベンチマークをキュレートした。
論文 参考訳(メタデータ) (2023-10-22T17:54:53Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Improving Generalization of Image Captioning with Unsupervised Prompt
Learning [63.26197177542422]
画像キャプションの一般化(GeneIC)は、アノテーション付きデータを必要とせずに、ターゲットドメインのドメイン固有のプロンプトベクトルを学習する。
GeneICは、学習済みのContrastive Language-Image Pre-Training (CLIP)モデルと視覚的および言語的モダリティを一致させる。
論文 参考訳(メタデータ) (2023-08-05T12:27:01Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。