論文の概要: Conditional Prompt Learning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2203.05557v1
- Date: Thu, 10 Mar 2022 18:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 13:17:18.070338
- Title: Conditional Prompt Learning for Vision-Language Models
- Title(参考訳): 視覚言語モデルのための条件付きプロンプト学習
- Authors: Kaiyang Zhou, Jingkang Yang, Chen Change Loy, Ziwei Liu
- Abstract要約: 近ごろ提案されたContext Optimization (CoOp) は、文脈単語をプロンプトで学習可能なベクトルの集合に変換する。
CoOpは、CoOpよりもはるかに優れたクラスを非表示に一般化し、単一のデータセットを超える有望な転送可能性を示している。
我々の実験によると、CoCoOpはCoOpよりもはるかに優れたクラスに一般化しており、単一のデータセットを超える有望な転送可能性を示している。
- 参考スコア(独自算出の注目度): 107.06776396086471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise of powerful pre-trained vision-language models like CLIP, it
becomes essential to investigate ways to adapt these models to downstream
datasets. A recently proposed method named Context Optimization (CoOp)
introduces the concept of prompt learning -- a recent trend in NLP -- to the
vision domain for adapting pre-trained vision-language models. Specifically,
CoOp turns context words in a prompt into a set of learnable vectors and, with
only a few labeled images for learning, can achieve huge improvements over
intensively-tuned manual prompts. In our study we identify a critical problem
of CoOp: the learned context is not generalizable to wider unseen classes
within the same dataset, suggesting that CoOp overfits base classes observed
during training. To address the problem, we propose Conditional Context
Optimization (CoCoOp), which extends CoOp by further learning a lightweight
neural network to generate for each image an input-conditional token (vector).
Compared to CoOp's static prompts, our dynamic prompts adapt to each instance
and are thus less sensitive to class shift. Extensive experiments show that
CoCoOp generalizes much better than CoOp to unseen classes, even showing
promising transferability beyond a single dataset; and yields stronger domain
generalization performance as well. Code is available at
https://github.com/KaiyangZhou/CoOp.
- Abstract(参考訳): CLIPのような強力なトレーニング済みの視覚言語モデルの台頭により、これらのモデルを下流データセットに適応させる方法を検討することが不可欠になる。
最近提案されたContext Optimization (CoOp) という手法は、事前学習された視覚言語モデルに適応するための視覚領域に、NLPの最近のトレンドである即時学習の概念を導入している。
特に、CoOpは、文脈語をプロンプトで学習可能なベクトルの集合に変換し、ラベル付きイメージで学習することで、集中的に調整された手動プロンプトよりも大幅に改善することができる。
学習コンテキストは、同じデータセット内のより広い未確認クラスには一般化できないため、CoOpはトレーニング中に観察されたベースクラスに適合する可能性が示唆された。
本稿では,各画像に対して入力条件トークン(vector)を生成する軽量ニューラルネットワークをさらに学習することにより,coopを拡張する条件付きコンテキスト最適化(cocoop)を提案する。
CoOpの静的プロンプトと比較すると、動的プロンプトは各インスタンスに適応するので、クラスシフトに敏感ではない。
大規模な実験によると、CoCoOpはCoOpよりもはるかに優れた一般化を実現しており、単一のデータセットを超える有望な転送可能性を示している。
コードはhttps://github.com/KaiyangZhou/CoOp.comで入手できる。
関連論文リスト
- Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning [94.52149969720712]
IntCoOpは、プロンプトチューニング中に属性レベルの帰納バイアスとクラス埋め込みを共同で調整することを学ぶ。
IntCoOpは10種類のデータセットの平均パフォーマンスを7.35%改善した。
論文 参考訳(メタデータ) (2024-06-19T16:37:31Z) - AAPL: Adding Attributes to Prompt Learning for Vision-Language Models [6.32186874112557]
本稿では,学習可能なプロンプトのバイアスを誘発する際,高次クラス情報から低次視覚強調特徴を分離するための逆トークン埋め込みを提案する。
我々は11のデータセットに対して実験を行い、AAPLは、いくつかのショット学習、ゼロショット学習、クロスデータセット、ドメイン一般化タスクにおいて、既存の手法と比較して好成績を示した。
論文 参考訳(メタデータ) (2024-04-25T17:51:10Z) - Vocabulary-Defined Semantics: Latent Space Clustering for Improving In-Context Learning [32.178931149612644]
コンテキスト内学習により、言語モデルは下流のデータに適応したり、プロンプト内のデモとして少数のサンプルでタスクを組み込むことができる。
しかし、文脈内学習のパフォーマンスは、実演の質、形式、順序によって不安定である可能性がある。
語彙定義意味論(vocabulary-defined semantics)を提案する。
論文 参考訳(メタデータ) (2024-01-29T14:29:48Z) - PRE: Vision-Language Prompt Learning with Reparameterization Encoder [24.855142164168605]
CLIPのような訓練済みの大規模な視覚言語モデルは、下流タスクへのゼロショット転送可能性に大きな可能性を証明している。
最適な性能を得るためには、下流画像分布とテキストクラス記述との整合性を改善するために、手動によるプロンプトの選択が必要である。
非自明なプロンプトエンジニアリングを避けるため、最近の作業コンテキスト最適化(CoOp)では、学習可能なテキストトークンを使用して視覚領域にプロンプト学習という概念を導入した。
論文 参考訳(メタデータ) (2023-09-14T14:48:01Z) - Understanding and Mitigating Overfitting in Prompt Tuning for
Vision-Language Models [108.13378788663196]
本稿では, トレーニング過程全体において, 低ランク部分空間にバックプロパゲーションの勾配を投影するSubspace Prompt Tuning(SubPT)を提案する。
我々はCoOpにノベル・ラーナー・フィーチャー(NFL)を装備し、学習したプロンプトをトレーニングセット以外の新しいカテゴリに一般化する能力を高める。
論文 参考訳(メタデータ) (2022-11-04T02:06:22Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Learning to Prompt for Vision-Language Models [82.25005817904027]
視覚言語による事前学習が表現学習の有望な代替手段として登場した。
画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。
このようなパラダイムは、より広範な監視源の恩恵を受け、下流タスクへのゼロショット転送を可能にします。
論文 参考訳(メタデータ) (2021-09-02T17:57:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。