論文の概要: Conditional Prompt Learning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2203.05557v1
- Date: Thu, 10 Mar 2022 18:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 13:17:18.070338
- Title: Conditional Prompt Learning for Vision-Language Models
- Title(参考訳): 視覚言語モデルのための条件付きプロンプト学習
- Authors: Kaiyang Zhou, Jingkang Yang, Chen Change Loy, Ziwei Liu
- Abstract要約: 近ごろ提案されたContext Optimization (CoOp) は、文脈単語をプロンプトで学習可能なベクトルの集合に変換する。
CoOpは、CoOpよりもはるかに優れたクラスを非表示に一般化し、単一のデータセットを超える有望な転送可能性を示している。
我々の実験によると、CoCoOpはCoOpよりもはるかに優れたクラスに一般化しており、単一のデータセットを超える有望な転送可能性を示している。
- 参考スコア(独自算出の注目度): 107.06776396086471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise of powerful pre-trained vision-language models like CLIP, it
becomes essential to investigate ways to adapt these models to downstream
datasets. A recently proposed method named Context Optimization (CoOp)
introduces the concept of prompt learning -- a recent trend in NLP -- to the
vision domain for adapting pre-trained vision-language models. Specifically,
CoOp turns context words in a prompt into a set of learnable vectors and, with
only a few labeled images for learning, can achieve huge improvements over
intensively-tuned manual prompts. In our study we identify a critical problem
of CoOp: the learned context is not generalizable to wider unseen classes
within the same dataset, suggesting that CoOp overfits base classes observed
during training. To address the problem, we propose Conditional Context
Optimization (CoCoOp), which extends CoOp by further learning a lightweight
neural network to generate for each image an input-conditional token (vector).
Compared to CoOp's static prompts, our dynamic prompts adapt to each instance
and are thus less sensitive to class shift. Extensive experiments show that
CoCoOp generalizes much better than CoOp to unseen classes, even showing
promising transferability beyond a single dataset; and yields stronger domain
generalization performance as well. Code is available at
https://github.com/KaiyangZhou/CoOp.
- Abstract(参考訳): CLIPのような強力なトレーニング済みの視覚言語モデルの台頭により、これらのモデルを下流データセットに適応させる方法を検討することが不可欠になる。
最近提案されたContext Optimization (CoOp) という手法は、事前学習された視覚言語モデルに適応するための視覚領域に、NLPの最近のトレンドである即時学習の概念を導入している。
特に、CoOpは、文脈語をプロンプトで学習可能なベクトルの集合に変換し、ラベル付きイメージで学習することで、集中的に調整された手動プロンプトよりも大幅に改善することができる。
学習コンテキストは、同じデータセット内のより広い未確認クラスには一般化できないため、CoOpはトレーニング中に観察されたベースクラスに適合する可能性が示唆された。
本稿では,各画像に対して入力条件トークン(vector)を生成する軽量ニューラルネットワークをさらに学習することにより,coopを拡張する条件付きコンテキスト最適化(cocoop)を提案する。
CoOpの静的プロンプトと比較すると、動的プロンプトは各インスタンスに適応するので、クラスシフトに敏感ではない。
大規模な実験によると、CoCoOpはCoOpよりもはるかに優れた一般化を実現しており、単一のデータセットを超える有望な転送可能性を示している。
コードはhttps://github.com/KaiyangZhou/CoOp.comで入手できる。
関連論文リスト
- PRE: Vision-Language Prompt Learning with Reparameterization Encoder [26.017809323969285]
CLIPのような訓練済みの大規模な視覚言語モデルは、下流タスクへのゼロショット転送可能性に大きな可能性を証明している。
最適な性能を得るためには、下流画像分布とテキストクラス記述との整合性を改善するために、手動によるプロンプトの選択が必要である。
非自明なプロンプトエンジニアリングを避けるため、最近の作業コンテキスト最適化(CoOp)では、学習可能なテキストトークンを使用して視覚領域にプロンプト学習という概念を導入した。
論文 参考訳(メタデータ) (2023-09-14T14:48:01Z) - Consistency-guided Prompt Learning for Vision-Language Models [27.75143621836449]
視覚言語モデルのための新しい微調整手法であるConsistency-Guided Prompt Learning (CoPrompt)を提案する。
提案手法は,下流タスクを数ショットで微調整した場合に,大規模な基礎モデルの一般化を改善する。
論文 参考訳(メタデータ) (2023-06-01T23:20:47Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - Understanding and Mitigating Overfitting in Prompt Tuning for
Vision-Language Models [108.13378788663196]
本稿では, トレーニング過程全体において, 低ランク部分空間にバックプロパゲーションの勾配を投影するSubspace Prompt Tuning(SubPT)を提案する。
我々はCoOpにノベル・ラーナー・フィーチャー(NFL)を装備し、学習したプロンプトをトレーニングセット以外の新しいカテゴリに一般化する能力を高める。
論文 参考訳(メタデータ) (2022-11-04T02:06:22Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Learning to Prompt for Vision-Language Models [82.25005817904027]
視覚言語による事前学習が表現学習の有望な代替手段として登場した。
画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。
このようなパラダイムは、より広範な監視源の恩恵を受け、下流タスクへのゼロショット転送を可能にします。
論文 参考訳(メタデータ) (2021-09-02T17:57:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。