論文の概要: Language-Aware Soft Prompting for Vision & Language Foundation Models
- arxiv url: http://arxiv.org/abs/2210.01115v1
- Date: Mon, 3 Oct 2022 17:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 13:20:13.592232
- Title: Language-Aware Soft Prompting for Vision & Language Foundation Models
- Title(参考訳): ビジョンと言語基盤モデルのための言語認識ソフトプロンプト
- Authors: Adrian Bulat and Georgios Tzimiropoulos
- Abstract要約: 本稿では,ビジョン&ランゲージ(V&L)モデルのソフトプロンプト学習について述べる。
彼らのNLPモデルと同様、V&Lモデルはソフトな連続的なプロンプトを学習することで、下流タスクに適応することができる。
- 参考スコア(独自算出の注目度): 67.19124099815645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper is on soft prompt learning for Vision \& Language (V&L) models.
Similarly to their NLP counterparts, V\&L models can be adapted to a downstream
task by learning soft continuous prompts using a few training examples. Current
methods learn the soft prompts by minimizing a cross-entropy loss using as
class weights the features obtained by passing the prompts plus the class names
through the text encoder. Such methods, however, significantly overfit the
training data suffering from large accuracy degradation when tested on unseen
classes from the same domain. Our main contribution, in this paper, is a
surprisingly simple approach to alleviate this problem: we use a second cross
entropy loss to minimize the distance between the learned soft prompts and a
set of hand-engineered manual prompts (obtained by prompt engineering). The
proposed loss can be interpreted in multiple ways including as a regularizer,
as a means for language-based augmentation, and as a way of learning more
discriminative class centroids. Importantly, our formulation is inherently
amenable to including, during training, virtual classes, i.e. class names for
which no visual samples are available, further increasing the robustness of the
learned prompts. Through extensive evaluations on 11 datasets, we show that our
approach (a) significantly outperforms all prior works on soft prompting, and
(b) matches and surpasses, for the first time, the accuracy on novel classes
obtained by hand-crafted prompts and CLIP for the majority of the test
datasets. Code will be made available.
- Abstract(参考訳): 本稿では,ビジョン・アンド・ランゲージ(V&L)モデルのソフト・プロンプト学習について述べる。
NLPモデルと同様に、V\&Lモデルは、いくつかのトレーニング例を使ってソフトな継続的プロンプトを学習することで、下流タスクに適応することができる。
現在の方法では,テキストエンコーダを通じてプロンプトとクラス名を渡すことで得られる特徴を重み付けして,クロスエントロピー損失を最小限にすることでソフトプロンプトを学習する。
しかし、そのような手法は、同じドメインの未確認クラスでテストした場合、大きな精度劣化を伴うトレーニングデータを著しく過大評価する。
第二のクロスエントロピー損失(cross entropy loss)を使用して、学習したソフトプロンプトと、手作りの手動プロンプト(プロンプトエンジニアリングによって保持される)との間の距離を最小化します。
提案された損失は、正規化子として、言語に基づく拡張の手段として、そしてより差別的なクラスセントロイドを学習する方法として、様々な方法で解釈できる。
重要なことは、私たちの定式化は、訓練中、仮想クラス、すなわち視覚的なサンプルが得られないクラス名を含むことができ、学習したプロンプトの堅牢性をさらに高めることができる。
11のデータセットに関する広範囲な評価を通じて、我々のアプローチが
(a)ソフトプロンプトのすべての先行作品を大幅に上回っていること、及び
b) テストデータセットの大部分に対して,手作りのプロンプトとクリップによって得られた新規クラスの精度が,初めて一致し,さらに上回った。
コードは利用可能になる。
関連論文リスト
- Mixture of Prompt Learning for Vision Language Models [12.828490399811376]
ルーティングモジュールを組み込んだソフトプロンプト学習手法の混合を提案する。
このモジュールはデータセットのさまざまなスタイルをキャプチャし、インスタンス毎に最も適切なプロンプトを動的に選択することができる。
また、意味的にグループ化されたテキストレベルの監視を実装し、各ソフトプロンプトを、そのグループから手動で設計されたテンプレートのトークン埋め込みで初期化する。
論文 参考訳(メタデータ) (2024-09-18T14:25:02Z) - Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Can Better Text Semantics in Prompt Tuning Improve VLM Generalization? [28.041879000565874]
本稿では,大規模言語モデルから得られたクラス記述を活用するプロンプトチューニング手法を提案する。
提案手法では,より一般化可能なプロンプトを学習するために,部分レベルの説明誘導画像とテキストの特徴を合成する。
11のベンチマークデータセットで実施した総合的な実験から,提案手法が確立された手法より優れていたことが判明した。
論文 参考訳(メタデータ) (2024-05-13T16:52:17Z) - Learning to Prompt with Text Only Supervision for Vision-Language Models [107.282881515667]
メソッドの1つのブランチは、視覚情報を使用してプロンプトを学習することでCLIPに適応する。
別のアプローチでは、大規模な言語モデルからクラス記述を生成することで、トレーニング不要の手法を利用する。
そこで本研究では,テキストデータのみを用いてプロンプトを学習することで,両ストリームの強みを組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-01-04T18:59:49Z) - PRE: Vision-Language Prompt Learning with Reparameterization Encoder [24.855142164168605]
CLIPのような訓練済みの大規模な視覚言語モデルは、下流タスクへのゼロショット転送可能性に大きな可能性を証明している。
最適な性能を得るためには、下流画像分布とテキストクラス記述との整合性を改善するために、手動によるプロンプトの選択が必要である。
非自明なプロンプトエンジニアリングを避けるため、最近の作業コンテキスト最適化(CoOp)では、学習可能なテキストトークンを使用して視覚領域にプロンプト学習という概念を導入した。
論文 参考訳(メタデータ) (2023-09-14T14:48:01Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。