論文の概要: Prompt-aligned Gradient for Prompt Tuning
- arxiv url: http://arxiv.org/abs/2205.14865v4
- Date: Wed, 13 Aug 2025 06:38:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.395621
- Title: Prompt-aligned Gradient for Prompt Tuning
- Title(参考訳): プロンプト調整のためのプロンプト整列勾配
- Authors: Beier Zhu, Yulei Niu, Yucheng Han, Yue Wu, Hanwang Zhang,
- Abstract要約: 本稿では,視覚言語モデル(VLM)から学んだ一般的な知識を,即時チューニングが忘れないようにするために,ProGradと呼ばれるPrompt対応のグラディエントを提案する。
ProGradは、勾配が「一般的な方向」に一致しているプロンプトのみを更新し、事前に定義されたプロンプト予測のKL損失の勾配として表される。
実験では、最先端のプロンプトチューニング手法に対して、ProGradのより強力な数ショットの一般化能力を示す。
- 参考スコア(独自算出の注目度): 59.04562893153831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Thanks to the large pre-trained vision-language models (VLMs) like CLIP, we can craft a zero-shot classifier by "prompt", e.g., the confidence score of an image being "[CLASS]" can be obtained by using the VLM provided similarity measure between the image and the prompt sentence "a photo of a [CLASS]". Therefore, prompt shows a great potential for fast adaptation of VLMs to downstream tasks if we fine-tune the prompt-based similarity measure. However, we find a common failure that improper fine-tuning may not only undermine the prompt's inherent prediction for the task-related classes, but also for other classes in the VLM vocabulary. Existing methods still address this problem by using traditional anti-overfitting techniques such as early stopping and data augmentation, which lack a principled solution specific to prompt. We present Prompt-aligned Gradient, dubbed ProGrad, to prevent prompt tuning from forgetting the the general knowledge learned from VLMs. In particular, ProGrad only updates the prompt whose gradient is aligned (or non-conflicting) to the "general direction", which is represented as the gradient of the KL loss of the pre-defined prompt prediction. Extensive experiments demonstrate the stronger few-shot generalization ability of ProGrad over state-of-the-art prompt tuning methods. Codes are available at https://github.com/BeierZhu/Prompt-align.
- Abstract(参考訳): CLIPのような大規模学習済み視覚言語モデル(VLM)により、画像の信頼度スコアを「[CLASS]」とするゼロショット分類器を作成でき、画像とプロンプト文「[CLASS]の写真」との類似度尺度を用いて、画像の「[CLASS]」の信頼度スコアを得ることができる。
したがって、プロンプトは、プロンプトベースの類似度尺度を微調整すれば、下流タスクへのVLMの高速適応の可能性を示す。
しかしながら、不適切な微調整がタスク関連クラスに対するプロンプト固有の予測を損なうだけでなく、VLM語彙の他のクラスに対しても、よくある失敗が見つかる。
既存の手法では、早期停止やデータ拡張といった従来のアンチオーバーフィッティング技術を用いることでこの問題に対処するが、これはプロンプトに特有の原則的な解決策が欠如している。
本稿では, ProGrad と呼ばれる Prompt 対応の Gradient を提案する。
特に、ProGradは、勾配が整列しているプロンプト(または非衝突)を「一般方向」に更新するだけであり、これは事前定義されたプロンプト予測のKL損失の勾配として表される。
広汎な実験は、最先端のプロンプトチューニング手法に対して、ProGradのより強力な数発の一般化能力を示す。
コードはhttps://github.com/BeierZhu/Prompt-align.comで入手できる。
関連論文リスト
- PrePrompt: Predictive prompting for class incremental learning [37.06693481489317]
事前学習モデルに基づくクラスインクリメンタルラーニング(CIL)は,オープンワールドの継続的ラーニングに有望な方向性を提供する。
本稿では,事前学習したモデルの自然な分類能力を活用し,タスク固有のプロンプトを予測することによって,相関に基づく制約を回避する新しいCILフレームワークであるPrepromptを提案する。
複数のベンチマークの実験は、PrePromptが最先端のプロンプトベースのCILメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2025-05-13T13:57:56Z) - Revisiting Prompt Pretraining of Vision-Language Models [13.888505919946578]
本稿では、RPP(Revisiting Prompt Pretraining)と呼ばれる一般的なフレームワークを提案する。
RPPは、フィッティングと一般化能力の改善を、迅速な構造と迅速な監督という2つの側面から目標としている。
また,事前訓練されたコントラスト言語画像事前学習(CLIP)教師モデルによって提供されるゼロショット確率予測から得られたソフトラベルを利用する。
論文 参考訳(メタデータ) (2024-09-10T02:36:13Z) - Nemesis: Normalizing the Soft-prompt Vectors of Vision-Language Models [5.58681637186155]
視覚言語モデル(VLM)におけるソフトプロンプトベクトルのノルムの役割について検討する。
テキストbfNormalizing thtextbfe soft-protextbfmpt vtextbfectors of vitextbfsion- language modeltextbfs (textbfNemesis) to normalize soft-prompt vectors。
論文 参考訳(メタデータ) (2024-08-26T02:09:05Z) - PromptAD: Learning Prompts with only Normal Samples for Few-Shot Anomaly Detection [59.34973469354926]
本稿では,PromptADと呼ばれる,数発の異常検出のための一級プロンプト学習手法を提案する。
画像レベル/ピクセルレベルの異常検出のために、PromptADはMVTecとVisAで11/12のショット設定で1位を達成した。
論文 参考訳(メタデータ) (2024-04-08T06:53:30Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Progressive Visual Prompt Learning with Contrastive Feature Re-formation [15.385630262368661]
本稿では,異なるレイヤのプロンプト間の相互作用を強化するために,プログレッシブ・ビジュアル・プロンプト(ProVP)構造を提案する。
我々のProVPは、画像の埋め込みを深い層に効果的に伝播させ、インスタンス適応的なプロンプトメソッドと部分的に似た振る舞いをすることができる。
我々の知る限り、我々はV-Lモデルにおける視覚的プロンプトの、下流タスクにおける従来のプロンプトベースの手法よりも優れた性能を示す最初の人物である。
論文 参考訳(メタデータ) (2023-04-17T15:54:10Z) - Iterative Prompt Learning for Unsupervised Backlit Image Enhancement [86.90993077000789]
そこで本研究では,CLIP-LITと略称される,非教師なしのバックライト画像強調手法を提案する。
オープンワールドのCLIPはバックライト画像と well-lit 画像の区別に有効であることを示す。
提案手法は,学習フレームワークの更新と,学習結果を視覚的に満足するまでのネットワークの強化を交互に行う。
論文 参考訳(メタデータ) (2023-03-30T17:37:14Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。