論文の概要: LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models
- arxiv url: http://arxiv.org/abs/2210.01115v2
- Date: Sun, 2 Apr 2023 18:03:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 00:48:57.380283
- Title: LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models
- Title(参考訳): LASP:視覚・言語モデルの言語対応ソフトプロンプトのためのテキスト間最適化
- Authors: Adrian Bulat and Georgios Tzimiropoulos
- Abstract要約: ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
- 参考スコア(独自算出の注目度): 67.19124099815645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Soft prompt learning has recently emerged as one of the methods of choice for
adapting V&L models to a downstream task using a few training examples.
However, current methods significantly overfit the training data, suffering
from large accuracy degradation when tested on unseen classes from the same
domain. To this end, in this paper, we make the following 4 contributions: (1)
To alleviate base class overfitting, we propose a novel Language-Aware Soft
Prompting (LASP) learning method by means of a text-to-text cross-entropy loss
that maximizes the probability of the learned prompts to be correctly
classified with respect to pre-defined hand-crafted textual prompts. (2) To
increase the representation capacity of the prompts, we propose grouped LASP
where each group of prompts is optimized with respect to a separate subset of
textual prompts. (3) We identify a visual-language misalignment introduced by
prompt learning and LASP, and more importantly, propose a re-calibration
mechanism to address it. (4) We show that LASP is inherently amenable to
including, during training, virtual classes, i.e. class names for which no
visual samples are available, further increasing the robustness of the learned
prompts. Through evaluations on 11 datasets, we show that our approach (a)
significantly outperforms all prior works on soft prompting, and (b) matches
and surpasses, for the first time, the accuracy on novel classes obtained by
hand-crafted prompts and CLIP for 8 out of 11 test datasets. Code will be made
available at https://www.adrianbulat.com/lasp
- Abstract(参考訳): ソフトプロンプト学習は、最近、いくつかのトレーニング例を使って、下流タスクにV&Lモデルを適応させる方法の1つとして登場した。
しかし、現在の手法では、同じドメインの未確認クラスでテストした場合、大きな精度劣化に悩まされるため、トレーニングデータに著しく過度に適合する。
そこで本論文では,(1) 基本クラスオーバーフィッティングを緩和するために, テキスト間の相互エントロピー損失を最大化して, 学習内容が予め定義されたテキストプロンプトに対して正しく分類される確率を最大化する新しい言語対応ソフトプロンプト(LASP)学習法を提案する。
2) プロンプトの表現能力を高めるため,各プロンプト群がテキストプロンプトの別個のサブセットに対して最適化されたグループ化LASPを提案する。
(3) 素早い学習とLASPによって導入された視覚言語的誤りを識別し、さらに重要なことに、それに対応するための再校正機構を提案する。
(4) LASPは、訓練中、仮想クラス、すなわち視覚的なサンプルが得られないクラス名を含むことができ、学習したプロンプトの堅牢性をさらに高めることができることを示す。
11のデータセットの評価を通して 我々のアプローチが
(a)ソフトプロンプトのすべての先行作品を大幅に上回っていること、及び
(b)11つのテストデータセットのうち8つを対象に,手作りのプロンプトとクリップによって得られた新規クラスの精度が初めて一致し,それを上回った。
コードはhttps://www.adrianbulat.com/laspで利用可能になる
関連論文リスト
- Mixture of Prompt Learning for Vision Language Models [12.828490399811376]
ルーティングモジュールを組み込んだソフトプロンプト学習手法の混合を提案する。
このモジュールはデータセットのさまざまなスタイルをキャプチャし、インスタンス毎に最も適切なプロンプトを動的に選択することができる。
また、意味的にグループ化されたテキストレベルの監視を実装し、各ソフトプロンプトを、そのグループから手動で設計されたテンプレートのトークン埋め込みで初期化する。
論文 参考訳(メタデータ) (2024-09-18T14:25:02Z) - Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Can Better Text Semantics in Prompt Tuning Improve VLM Generalization? [28.041879000565874]
本稿では,大規模言語モデルから得られたクラス記述を活用するプロンプトチューニング手法を提案する。
提案手法では,より一般化可能なプロンプトを学習するために,部分レベルの説明誘導画像とテキストの特徴を合成する。
11のベンチマークデータセットで実施した総合的な実験から,提案手法が確立された手法より優れていたことが判明した。
論文 参考訳(メタデータ) (2024-05-13T16:52:17Z) - Learning to Prompt with Text Only Supervision for Vision-Language Models [107.282881515667]
メソッドの1つのブランチは、視覚情報を使用してプロンプトを学習することでCLIPに適応する。
別のアプローチでは、大規模な言語モデルからクラス記述を生成することで、トレーニング不要の手法を利用する。
そこで本研究では,テキストデータのみを用いてプロンプトを学習することで,両ストリームの強みを組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-01-04T18:59:49Z) - PRE: Vision-Language Prompt Learning with Reparameterization Encoder [24.855142164168605]
CLIPのような訓練済みの大規模な視覚言語モデルは、下流タスクへのゼロショット転送可能性に大きな可能性を証明している。
最適な性能を得るためには、下流画像分布とテキストクラス記述との整合性を改善するために、手動によるプロンプトの選択が必要である。
非自明なプロンプトエンジニアリングを避けるため、最近の作業コンテキスト最適化(CoOp)では、学習可能なテキストトークンを使用して視覚領域にプロンプト学習という概念を導入した。
論文 参考訳(メタデータ) (2023-09-14T14:48:01Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。