Fugu-MT 論文翻訳(概要): Learning Domain Invariant Prompt for Vision-Language Models

論文の概要: Learning Domain Invariant Prompt for Vision-Language Models

arxiv url: http://arxiv.org/abs/2212.04196v1
Date: Thu, 8 Dec 2022 11:23:24 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-09 15:53:01.911429
Title: Learning Domain Invariant Prompt for Vision-Language Models
Title（参考訳）: 視覚言語モデルのための学習領域不変プロンプト
Authors: Cairong Zhao, Yubin Wang, Xinyang Jiang, Yifei Shen, Kaitao Song, Dongsheng Li, Duoqian Miao
Abstract要約: 本稿では,メタプロンプト(MetaPrompt)と呼ばれる未確認領域に一般化可能なドメイン不変プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。さらに重要なことは、メタ学習に基づくプロンプトチューニングアルゴリズムを提案し、特定のドメインやクラスでチューニングされたプロンプトを明示的に制約し、他のドメインやクラスで優れたパフォーマンスを達成する。
参考スコア（独自算出の注目度）: 33.16533760444475
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prompt learning is one of the most effective and trending ways to adapt powerful vision-language foundation models like CLIP to downstream datasets by tuning learnable prompt vectors with very few samples. However, although prompt learning achieves excellent performance over in-domain data, it still faces the major challenge of generalizing to unseen classes and domains. Some existing prompt learning methods tackle this issue by adaptively generating different prompts for different tokens or domains but neglecting the ability of learned prompts to generalize to unseen domains. In this paper, we propose a novel prompt learning paradigm that directly generates domain invariant prompt generalizable to unseen domains, called MetaPrompt. Specifically, a dual-modality prompt tuning network is proposed to generate prompts for inputs from both image and text modalities. More importantly, we propose a meta-learning-based prompt tuning algorithm that explicitly constrains the prompt tuned on a specific domain or class also to achieve good performance on another domain or class. Extensive experiments on 11 datasets for base-to-new generalization and four datasets for domain generalization demonstrate that our method consistently and significantly outperforms existing methods.
Abstract（参考訳）: プロンプト学習は、CLIPのような強力なビジョン言語基盤モデルを、ごく少数のサンプルで学習可能なプロンプトベクトルをチューニングすることで、下流データセットに適応する最も効果的でトレンドな方法の1つである。しかし、素早い学習はドメイン内のデータよりも優れたパフォーマンスを達成するが、未確認のクラスやドメインに一般化するという大きな課題に直面している。いくつかの既存のプロンプト学習方法は、異なるトークンやドメインの異なるプロンプトを適応的に生成することでこの問題に対処するが、未知のドメインに一般化する学習プロンプトの能力を無視する。本稿では,非知覚領域に一般化可能なドメイン不変プロンプトを直接生成する新しいプロンプト学習パラダイムであるmetapromptを提案する。具体的には、画像とテキストの両モードから入力のプロンプトを生成するために、デュアルモーダリティ・プロンプト・チューニング・ネットワークを提案する。さらに重要なことは、メタ学習に基づくプロンプトチューニングアルゴリズムを提案し、特定のドメインやクラスでチューニングされたプロンプトを明示的に制約し、他のドメインやクラスでも優れたパフォーマンスを実現する。ベース・ツー・ニュー・ジェネライゼーションのための11のデータセットとドメイン・ジェネライゼーションのための4つのデータセットに関する広範な実験は、この手法が既存の手法を一貫して著しく上回っていることを示している。

関連論文リスト

Text-Driven Causal Representation Learning for Source-Free Domain Generalization [82.75041792888274]
我々は、ソースフリー領域一般化設定に因果推論を統合する最初の方法であるTDCRLを提案する。我々のアプローチは、堅牢でドメイン不変な特徴を達成するための明確で効果的なメカニズムを提供し、堅牢な一般化を保証する。
論文参考訳（メタデータ） (2025-07-14T06:20:42Z)
Prompt Disentanglement via Language Guidance and Representation Alignment for Domain Generalization [75.88719716002014]
ドメイン一般化 (Domain Generalization, DG) は、目に見えないターゲットドメインに対して効果的に機能する汎用モデルの開発を目指している。 VFM(Pre-trained Visual Foundation Models)の最近の進歩は、ディープラーニングモデルの一般化能力を向上する大きな可能性を示している。 VFMの制御可能で柔軟な言語プロンプトを活用することで,この問題に対処することを提案する。
論文参考訳（メタデータ） (2025-07-03T03:52:37Z)
ChordPrompt: Orchestrating Cross-Modal Prompt Synergy for Multi-Domain Incremental Learning in CLIP [12.031278034659872]
継続学習は、事前訓練された視覚言語モデルに、新規または以前は表現されていないデータ分布に効果的に適応させる権限を与える。 ChordPromptは、視覚情報とテキスト情報の相互作用を活用するためのクロスモーダルプロンプトを導入している。 ChordPromptはゼロショットの一般化とダウンストリームのタスクパフォーマンスにおいて最先端の手法より優れている。
論文参考訳（メタデータ） (2025-06-24T13:22:06Z)
Can Graph Neural Networks Learn Language with Extremely Weak Text Supervision? [62.12375949429938]
CLIPパイプラインによる転送可能なグラフニューラルネットワーク(GNN)の構築は、3つの根本的な問題のために難しい。我々は、マルチモーダル・プロンプト・ラーニングを利用して、事前学習したGNNを下流のタスクやデータに効果的に適応させる。我々の新しいパラダイムは、グラフプロンプトとテキストプロンプトの両方を同時に学習することで、Large Language Models(LLM)と直接同じ空間にグラフを埋め込む。
論文参考訳（メタデータ） (2024-12-11T08:03:35Z)
MuAP: Multi-step Adaptive Prompt Learning for Vision-Language Model with Missing Modality [11.03329286331929]
モダリティが不完全である場合の学習行動について,本研究は初めて包括的調査を行う。本稿では,マルチモーダルなプロンプトを生成し,マルチステップなプロンプトチューニングを実現するための,新しい多段階適応型プロンプト学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-07T03:33:46Z)
StylePrompter: Enhancing Domain Generalization with Test-Time Style Priors [39.695604434738186]
実世界のアプリケーションでは、推論段階でのサンプル分布は、トレーニング段階でのものとしばしば異なる。本稿では,訓練されたモデルを動的に適応させるために,言語モダリティのスタイルプロンプトを紹介する。特に,現在の画像のスタイル情報をトークン埋め込み空間に埋め込むように,スタイルプロンサを訓練する。スタイルトークン埋め込み空間と手作りスタイル正規化のオープンスペース分割により、トレーニング済みのスタイルプロンサが未知のドメインからのデータを効率的に処理できるようになる。
論文参考訳（メタデータ） (2024-08-17T08:35:43Z)
CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文参考訳（メタデータ） (2024-03-21T11:58:50Z)
Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文参考訳（メタデータ） (2023-09-30T02:59:49Z)
Prompting Diffusion Representations for Cross-Domain Semantic Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文参考訳（メタデータ） (2023-07-05T09:28:25Z)
Gradient-Regulated Meta-Prompt Learning for Generalizable Vision-Language Models [137.74524357614285]
グラディエント・レグルアテッドメタプロンプト学習フレームワークについて紹介する。パラメーターとデータ -- 効率的な方法で下流タスクにモデルを適応させるのに役立つ。 GRAMはモデルに依存しない方法で様々なプロンプトチューニング手法に容易に組み込むことができる。
論文参考訳（メタデータ） (2023-03-12T05:03:37Z)
SwitchPrompt: Learning Domain-Specific Gated Soft Prompts for Classification in Low-Resource Domains [14.096170976149521]
SwitchPromptは、汎用ドメインからさまざまな低リソースドメインへのデータセットでトレーニングされた言語モデルを適応するための、新しくて軽量なプロンプト手法である。筆者らは,SwitchPromptを用いた場合の一般領域事前学習言語モデルの有効性を3つのテキスト分類ベンチマークで検証した。彼らはしばしば、ベースライン・オブ・ザ・アーツ・プロンプト法で訓練されたドメイン固有の手法を最大10.7%の精度で上回っている。
論文参考訳（メタデータ） (2023-02-14T07:14:08Z)
Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文参考訳（メタデータ） (2022-10-13T17:50:24Z)
LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。 LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。 LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文参考訳（メタデータ） (2022-10-03T17:56:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。