論文の概要: LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models
- arxiv url: http://arxiv.org/abs/2210.01115v2
- Date: Sun, 2 Apr 2023 18:03:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 00:48:57.380283
- Title: LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models
- Title(参考訳): LASP:視覚・言語モデルの言語対応ソフトプロンプトのためのテキスト間最適化
- Authors: Adrian Bulat and Georgios Tzimiropoulos
- Abstract要約: ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
- 参考スコア(独自算出の注目度): 67.19124099815645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Soft prompt learning has recently emerged as one of the methods of choice for
adapting V&L models to a downstream task using a few training examples.
However, current methods significantly overfit the training data, suffering
from large accuracy degradation when tested on unseen classes from the same
domain. To this end, in this paper, we make the following 4 contributions: (1)
To alleviate base class overfitting, we propose a novel Language-Aware Soft
Prompting (LASP) learning method by means of a text-to-text cross-entropy loss
that maximizes the probability of the learned prompts to be correctly
classified with respect to pre-defined hand-crafted textual prompts. (2) To
increase the representation capacity of the prompts, we propose grouped LASP
where each group of prompts is optimized with respect to a separate subset of
textual prompts. (3) We identify a visual-language misalignment introduced by
prompt learning and LASP, and more importantly, propose a re-calibration
mechanism to address it. (4) We show that LASP is inherently amenable to
including, during training, virtual classes, i.e. class names for which no
visual samples are available, further increasing the robustness of the learned
prompts. Through evaluations on 11 datasets, we show that our approach (a)
significantly outperforms all prior works on soft prompting, and (b) matches
and surpasses, for the first time, the accuracy on novel classes obtained by
hand-crafted prompts and CLIP for 8 out of 11 test datasets. Code will be made
available at https://www.adrianbulat.com/lasp
- Abstract(参考訳): ソフトプロンプト学習は、最近、いくつかのトレーニング例を使って、下流タスクにV&Lモデルを適応させる方法の1つとして登場した。
しかし、現在の手法では、同じドメインの未確認クラスでテストした場合、大きな精度劣化に悩まされるため、トレーニングデータに著しく過度に適合する。
そこで本論文では,(1) 基本クラスオーバーフィッティングを緩和するために, テキスト間の相互エントロピー損失を最大化して, 学習内容が予め定義されたテキストプロンプトに対して正しく分類される確率を最大化する新しい言語対応ソフトプロンプト(LASP)学習法を提案する。
2) プロンプトの表現能力を高めるため,各プロンプト群がテキストプロンプトの別個のサブセットに対して最適化されたグループ化LASPを提案する。
(3) 素早い学習とLASPによって導入された視覚言語的誤りを識別し、さらに重要なことに、それに対応するための再校正機構を提案する。
(4) LASPは、訓練中、仮想クラス、すなわち視覚的なサンプルが得られないクラス名を含むことができ、学習したプロンプトの堅牢性をさらに高めることができることを示す。
11のデータセットの評価を通して 我々のアプローチが
(a)ソフトプロンプトのすべての先行作品を大幅に上回っていること、及び
(b)11つのテストデータセットのうち8つを対象に,手作りのプロンプトとクリップによって得られた新規クラスの精度が初めて一致し,それを上回った。
コードはhttps://www.adrianbulat.com/laspで利用可能になる
関連論文リスト
- Learning to Prompt with Text Only Supervision for Vision-Language Models [107.282881515667]
メソッドの1つのブランチは、視覚情報を使用してプロンプトを学習することでCLIPに適応する。
別のアプローチでは、大規模な言語モデルからクラス記述を生成することで、トレーニング不要の手法を利用する。
そこで本研究では,テキストデータのみを用いてプロンプトを学習することで,両ストリームの強みを組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-01-04T18:59:49Z) - PRE: Vision-Language Prompt Learning with Reparameterization Encoder [26.017809323969285]
CLIPのような訓練済みの大規模な視覚言語モデルは、下流タスクへのゼロショット転送可能性に大きな可能性を証明している。
最適な性能を得るためには、下流画像分布とテキストクラス記述との整合性を改善するために、手動によるプロンプトの選択が必要である。
非自明なプロンプトエンジニアリングを避けるため、最近の作業コンテキスト最適化(CoOp)では、学習可能なテキストトークンを使用して視覚領域にプロンプト学習という概念を導入した。
論文 参考訳(メタデータ) (2023-09-14T14:48:01Z) - DPL: Decoupled Prompt Learning for Vision-Language Models [41.90997623029582]
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。
我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
論文 参考訳(メタデータ) (2023-08-19T15:48:38Z) - Learning Domain Invariant Prompt for Vision-Language Models [31.581652862478965]
本稿では,メタプロンプト(MetaPrompt)と呼ばれる未確認領域に一般化可能な,固有領域不変プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。
我々の手法は既存の手法より一貫して大幅に優れています。
論文 参考訳(メタデータ) (2022-12-08T11:23:24Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。