論文の概要: Prompt-aligned Gradient for Prompt Tuning
- arxiv url: http://arxiv.org/abs/2205.14865v3
- Date: Wed, 10 Jan 2024 06:24:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 18:15:17.989396
- Title: Prompt-aligned Gradient for Prompt Tuning
- Title(参考訳): プロンプト調整のためのプロンプトアライメント勾配
- Authors: Beier Zhu and Yulei Niu and Yucheng Han and Yue Wu and Hanwang Zhang
- Abstract要約: 本稿では,視覚言語モデル(VLM)から学んだ一般的な知識を,即時チューニングが忘れないようにするために,ProGradと呼ばれるPrompt対応のグラディエントを提案する。
ProGradは、勾配が「一般的な方向」に一致しているプロンプトのみを更新し、事前に定義されたプロンプト予測のKL損失の勾配として表される。
実験では、最先端のプロンプトチューニング手法に対して、ProGradのより強力な数ショットの一般化能力を示す。
- 参考スコア(独自算出の注目度): 63.346864107288766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Thanks to the large pre-trained vision-language models (VLMs) like CLIP, we
can craft a zero-shot classifier by "prompt", e.g., the confidence score of an
image being "[CLASS]" can be obtained by using the VLM provided similarity
measure between the image and the prompt sentence "a photo of a [CLASS]".
Therefore, prompt shows a great potential for fast adaptation of VLMs to
downstream tasks if we fine-tune the prompt-based similarity measure. However,
we find a common failure that improper fine-tuning may not only undermine the
prompt's inherent prediction for the task-related classes, but also for other
classes in the VLM vocabulary. Existing methods still address this problem by
using traditional anti-overfitting techniques such as early stopping and data
augmentation, which lack a principled solution specific to prompt. We present
Prompt-aligned Gradient, dubbed ProGrad, to prevent prompt tuning from
forgetting the the general knowledge learned from VLMs. In particular, ProGrad
only updates the prompt whose gradient is aligned (or non-conflicting) to the
"general direction", which is represented as the gradient of the KL loss of the
pre-defined prompt prediction. Extensive experiments demonstrate the stronger
few-shot generalization ability of ProGrad over state-of-the-art prompt tuning
methods. Codes are available at https://github.com/BeierZhu/Prompt-align.
- Abstract(参考訳): CLIPのような大規模な事前学習された視覚言語モデル(VLM)により、画像の「[CLASS]」である画像の信頼度スコアを画像と「[CLASS]の写真」との類似度尺度で得られるように、ゼロショット分類器を"prompt"で作成することができる。
したがって、プロンプトは、プロンプトベースの類似度尺度を微調整すれば、下流タスクへのVLMの高速適応の可能性を示す。
しかしながら、不適切な微調整がタスク関連クラスに対するプロンプト固有の予測を損なうだけでなく、VLM語彙の他のクラスに対しても、よくある失敗が見つかる。
既存の手法では、早期停止やデータ拡張といった従来のオーバーフィット防止手法を使用してもこの問題に対処している。
我々は,vlmsから得られる一般的な知識を忘れないように,progradと呼ばれるプロンプトアライメント勾配を提案する。
特に、progradは、事前定義されたプロンプト予測のkl損失の勾配として表される「一般方向」に勾配をアライン(または非衝突)するプロンプトのみを更新する。
広汎な実験は、最先端のプロンプトチューニング手法に対するProGradのより強力な数発の一般化能力を示す。
コードはhttps://github.com/BeierZhu/Prompt-align.comで入手できる。
関連論文リスト
- Revisiting Prompt Pretraining of Vision-Language Models [13.888505919946578]
本稿では、RPP(Revisiting Prompt Pretraining)と呼ばれる一般的なフレームワークを提案する。
RPPは、フィッティングと一般化能力の改善を、迅速な構造と迅速な監督という2つの側面から目標としている。
また,事前訓練されたコントラスト言語画像事前学習(CLIP)教師モデルによって提供されるゼロショット確率予測から得られたソフトラベルを利用する。
論文 参考訳(メタデータ) (2024-09-10T02:36:13Z) - PromptAD: Learning Prompts with only Normal Samples for Few-Shot Anomaly Detection [59.34973469354926]
本稿では,PromptADと呼ばれる,数発の異常検出のための一級プロンプト学習手法を提案する。
画像レベル/ピクセルレベルの異常検出のために、PromptADはMVTecとVisAで11/12のショット設定で1位を達成した。
論文 参考訳(メタデータ) (2024-04-08T06:53:30Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Progressive Visual Prompt Learning with Contrastive Feature Re-formation [15.385630262368661]
本稿では,異なるレイヤのプロンプト間の相互作用を強化するために,プログレッシブ・ビジュアル・プロンプト(ProVP)構造を提案する。
我々のProVPは、画像の埋め込みを深い層に効果的に伝播させ、インスタンス適応的なプロンプトメソッドと部分的に似た振る舞いをすることができる。
我々の知る限り、我々はV-Lモデルにおける視覚的プロンプトの、下流タスクにおける従来のプロンプトベースの手法よりも優れた性能を示す最初の人物である。
論文 参考訳(メタデータ) (2023-04-17T15:54:10Z) - Iterative Prompt Learning for Unsupervised Backlit Image Enhancement [86.90993077000789]
そこで本研究では,CLIP-LITと略称される,非教師なしのバックライト画像強調手法を提案する。
オープンワールドのCLIPはバックライト画像と well-lit 画像の区別に有効であることを示す。
提案手法は,学習フレームワークの更新と,学習結果を視覚的に満足するまでのネットワークの強化を交互に行う。
論文 参考訳(メタデータ) (2023-03-30T17:37:14Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。