論文の概要: Domain-Controlled Prompt Learning
- arxiv url: http://arxiv.org/abs/2310.07730v2
- Date: Tue, 12 Dec 2023 08:56:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 19:31:50.038586
- Title: Domain-Controlled Prompt Learning
- Title(参考訳): ドメイン制御型プロンプト学習
- Authors: Qinglong Cao, Zhengqin Xu, Yuntian Chen, Chao Ma, Xiaokang Yang
- Abstract要約: 既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 49.45309818782329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pre-trained vision-language models, such as CLIP, have shown remarkable
generalization capabilities across various tasks when appropriate text prompts
are provided. However, adapting these models to specific domains, like remote
sensing images (RSIs), medical images, etc, remains unexplored and challenging.
Existing prompt learning methods often lack domain-awareness or domain-transfer
mechanisms, leading to suboptimal performance due to the misinterpretation of
specific images in natural image patterns. To tackle this dilemma, we proposed
a \textbf{Domain-Controlled Prompt Learning} for the specific domains.
Specifically, the large-scale specific domain foundation model (LSDM) is first
introduced to provide essential specific domain knowledge. Using lightweight
neural networks, we transfer this knowledge into domain biases, which control
both the visual and language branches to obtain domain-adaptive prompts in a
directly incorporating manner. Simultaneously, to overcome the existing
overfitting challenge, we propose a novel noisy-adding strategy, without extra
trainable parameters, to help the model escape the suboptimal solution in a
global domain oscillation manner. Experimental results show our method achieves
state-of-the-art performance in specific domain image recognition datasets. Our
code is available at https://github.com/caoql98/DCPL.
- Abstract(参考訳): CLIPのような大規模な事前学習された視覚言語モデルは、適切なテキストプロンプトが提供されると、様々なタスクにわたって顕著な一般化能力を示す。
しかし、リモートセンシング画像(RSI)や医療画像など、これらのモデルを特定のドメインに適応させることは、まだ未調査であり、課題である。
既存のプロンプト学習法では、ドメイン認識性やドメイン転送機構が欠如しており、自然画像パターンにおける特定の画像の誤解による最適でない性能をもたらす。
このジレンマに対処するために、我々は特定のドメインに対する \textbf{domain- controlled prompt learning} を提案した。
具体的には、大規模な特定ドメイン基盤モデル(LSDM)が最初に導入され、本質的な特定ドメイン知識を提供する。
軽量ニューラルネットワークを用いて、これらの知識をドメインバイアスに転送し、視覚と言語の両方を制御し、直接的に組み込む方法でドメイン適応プロンプトを得る。
同時に、既存の過度に適合する課題を克服するために、トレーニング可能な余分なパラメータを伴わない新しいノイズ付加戦略を提案し、このモデルが大域的ドメイン振動方式で最適解から逃れる手助けをする。
実験により,本手法は特定の領域画像認識データセットにおける最先端性能を実現する。
私たちのコードはhttps://github.com/caoql98/DCPLで利用可能です。
関連論文リスト
- In the Era of Prompt Learning with Vision-Language Models [1.060608983034705]
ドメイン一般化のためのドメインに依存しない新しい学習戦略であるtextscStyLIP を紹介する。
StyLIPは、スタイルプロジェクタを使用してドメイン固有のプロンプトトークンを学習することで、CLIPsビジョンエンコーダの視覚スタイルとコンテンツを切り離す。
また,CLIPの凍結視覚バックボーンを利用した非教師なし領域適応(DA)のためのAD-CLIPを提案する。
論文 参考訳(メタデータ) (2024-11-07T17:31:21Z) - WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。
まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。
WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:46:27Z) - VLLaVO: Mitigating Visual Gap through LLMs [7.352822795984628]
クロスドメイン学習は、トレーニングとテストデータのドメインシフトを減らすために、ドメイン不変の知識を抽出することを目的としている。
視覚言語モデルと大規模言語モデルを組み合わせたVLLaVOを提案する。
論文 参考訳(メタデータ) (2024-01-06T16:33:39Z) - Domain Prompt Learning with Quaternion Networks [49.45309818782329]
本稿では、ドメイン固有の基礎モデルからドメイン固有の知識を活用して、ビジョン言語モデルの堅牢な認識能力を特定ドメインに転送することを提案する。
本稿では、階層型言語プロンプト特徴とドメイン固有の視覚特徴との間のモーダル関係を解析することにより、視覚プロンプト特徴を生成する階層型アプローチを提案する。
提案手法は,即時学習のための新しい最先端結果を実現する。
論文 参考訳(メタデータ) (2023-12-12T08:49:39Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - Single Domain Dynamic Generalization for Iris Presentation Attack
Detection [41.126916126040655]
アイリスプレゼンテーションの一般化はドメイン内の設定では大きな成功を収めたが、目に見えないドメインでは容易に分解できる。
本稿では,ドメイン不変性とドメイン固有性を利用した単一ドメイン動的一般化(SDDG)フレームワークを提案する。
提案手法は有効であり,LivDet-Iris 2017データセットの最先端性を上回っている。
論文 参考訳(メタデータ) (2023-05-22T07:54:13Z) - Learning Domain Invariant Prompt for Vision-Language Models [31.581652862478965]
本稿では,メタプロンプト(MetaPrompt)と呼ばれる未確認領域に一般化可能な,固有領域不変プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。
我々の手法は既存の手法より一貫して大幅に優れています。
論文 参考訳(メタデータ) (2022-12-08T11:23:24Z) - Domain Invariant Masked Autoencoders for Self-supervised Learning from
Multi-domains [73.54897096088149]
マルチドメインからの自己教師型学習のためのドメイン不変のMasked AutoEncoder (DiMAE)を提案する。
中心となる考え方は、入力画像を異なるドメインからのスタイルノイズで拡張し、拡張イメージの埋め込みからイメージを再構築することである。
PACSとDomainNetの実験は、最近の最先端の手法と比較して、DiMAEがかなりの利益を得ていることを示している。
論文 参考訳(メタデータ) (2022-05-10T09:49:40Z) - WEDGE: Web-Image Assisted Domain Generalization for Semantic
Segmentation [72.88657378658549]
本稿では,Web画像の多様性を一般化可能なセマンティックセグメンテーションに活用したWEb画像支援ドメインゲネラライゼーション手法を提案する。
また,ウェブクローラー画像のスタイルをトレーニング中のトレーニング画像に注入する手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T05:19:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。