論文の概要: Variational prompt tuning improves generalization of vision-language
models
- arxiv url: http://arxiv.org/abs/2210.02390v1
- Date: Wed, 5 Oct 2022 17:05:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 12:41:22.757125
- Title: Variational prompt tuning improves generalization of vision-language
models
- Title(参考訳): 変分プロンプトチューニングは視覚言語モデルの一般化を改善する
- Authors: Mohammad Mahdi Derakhshani, Enrique Sanchez, Adrian Bulat, Victor
Guilherme Turrisi da Costa, Cees G. M. Snoek, Georgios Tzimiropoulos and
Brais Martinez
- Abstract要約: 当社のアプローチは,標準および条件付きプロンプト学習フレームワークにシームレスに統合されていることを示す。
提案手法は,CoCoOpを標準ベンチマークで平均1.6%の精度で上回っている。
- 参考スコア(独自算出の注目度): 72.67368357421938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt tuning provides an efficient mechanism to adapt large vision-language
models to downstream tasks by treating part of the input language prompts as
learnable parameters while freezing the rest of the model. Existing works for
prompt tuning are however prone to damaging the generalization capabilities of
the foundation models, because the learned prompts lack the capacity of
covering certain concepts within the language model. To avoid such limitation,
we propose a probabilistic modeling of the underlying distribution of prompts,
allowing prompts within the support of an associated concept to be derived
through stochastic sampling. This results in a more complete and richer
transfer of the information captured by the language model, providing better
generalization capabilities for downstream tasks. The resulting algorithm
relies on a simple yet powerful variational framework that can be directly
integrated with other developments. We show our approach is seamlessly
integrated into both standard and conditional prompt learning frameworks,
improving the performance on both cases considerably, especially with regards
to preserving the generalization capability of the original model. Our method
provides the current state-of-the-art for prompt learning, surpassing CoCoOp by
1.6% average Top-1 accuracy on the standard benchmark. Remarkably, it even
surpasses the original CLIP model in terms of generalization to new classes.
Implementation code will be released.
- Abstract(参考訳): プロンプトチューニングは、入力言語プロンプトの一部を学習可能なパラメータとして扱うことによって、大きな視覚言語モデルを下流タスクに適応させる効率的なメカニズムを提供する。
しかしながら、既存のプロンプトチューニングの作業は、学習されたプロンプトが言語モデル内の特定の概念をカバーする能力に欠けるため、基礎モデルの一般化能力を損なう傾向にある。
このような制限を回避するため、確率的サンプリングにより、関連する概念の支持範囲内でのプロンプトを導出できるプロンプトの基盤分布の確率論的モデリングを提案する。
これにより、言語モデルによって取得された情報のより完全でリッチな転送が可能になり、下流タスクのより優れた一般化機能を提供する。
結果として得られるアルゴリズムは、他の開発と直接統合できるシンプルで強力な変分フレームワークに依存している。
我々は,本手法が標準および条件付きプロンプト学習フレームワークにシームレスに統合されていることを示す。
提案手法は,CoCoOpを標準ベンチマークで平均1.6%の精度で上回っている。
注目すべきは、新しいクラスへの一般化という点で、オリジナルのCLIPモデルを超えていることだ。
実装コードはリリースされます。
関連論文リスト
- Prompt Diffusion Robustifies Any-Modality Prompt Learning [43.35989471544046]
本稿では,各試料にカスタマイズされたプロンプトを得るために,拡散モデルを用いてプロンプトを徐々に洗練するプロンプト拡散法を提案する。
試験されたすべての素早い学習方法に対して、迅速な拡散を加えることで、15の多様なデータセットでテストされた分類タスクにおいて、ベース・ツー・ニューな一般化、クロスデータセットの一般化、ドメインの一般化のためのより堅牢な結果が得られる。
論文 参考訳(メタデータ) (2024-10-26T12:36:25Z) - Revisiting Prompt Pretraining of Vision-Language Models [13.888505919946578]
本稿では、RPP(Revisiting Prompt Pretraining)と呼ばれる一般的なフレームワークを提案する。
RPPは、フィッティングと一般化能力の改善を、迅速な構造と迅速な監督という2つの側面から目標としている。
また,事前訓練されたコントラスト言語画像事前学習(CLIP)教師モデルによって提供されるゼロショット確率予測から得られたソフトラベルを利用する。
論文 参考訳(メタデータ) (2024-09-10T02:36:13Z) - Hard Prompts Made Interpretable: Sparse Entropy Regularization for Prompt Tuning with RL [29.01858866450715]
ソフトQ-ラーニングを利用した最適なプロンプトを見つけることを目的としたRLPromptを提案する。
結果は有望な結果を示す一方で,プロンプトが不自然に現れることがしばしばあり,その解釈可能性を妨げることが確認されている。
この制限をスパルス・ツァリスエントロピー正規化(英語版)を用いて解決する。
論文 参考訳(メタデータ) (2024-07-20T03:10:19Z) - RESTORE: Towards Feature Shift for Vision-Language Prompt Learning [33.13407089704543]
ここでは,CLIPの1つの分岐のみに沿った即時チューニングが,誤調整の発生の原因であることを示す。
学習可能なパラメータをさまざまなモダリティで適切に正規化することなく、迅速な学習は元の事前学習制約に違反する。
クロスモーダルな一貫性に明示的な制約を課すマルチモーダルなプロンプト学習手法であるRESTOREを提案する。
論文 参考訳(メタデータ) (2024-03-10T08:52:48Z) - Understanding prompt engineering may not require rethinking
generalization [56.38207873589642]
言語モデルによって与えられるPAC-Bayesと組み合わさったプロンプトの離散的性質は、文献の標準によって非常に厳密な一般化境界をもたらすことを示す。
この研究は、プロンプトエンジニアリングの広範な実践を正当化する可能性がある。
論文 参考訳(メタデータ) (2023-10-06T00:52:48Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Patch-Prompt Aligned Bayesian Prompt Tuning for Vision-Language Models [48.77653835765705]
そこでは,まず下位分布から潜在ベクトルをサンプリングし,次に軽量な生成モデルを用いてラベル固有のプロンプトを階層的に生成する。
提案手法の有効性は,少数ショット画像認識,ベース・ツー・ニュージェネリゼーション,データセット転送学習,ドメインシフトの4つのタスクで評価する。
論文 参考訳(メタデータ) (2023-03-16T06:09:15Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。