論文の概要: Patch-Token Aligned Bayesian Prompt Learning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2303.09100v1
- Date: Thu, 16 Mar 2023 06:09:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 16:35:40.872423
- Title: Patch-Token Aligned Bayesian Prompt Learning for Vision-Language Models
- Title(参考訳): 視覚言語モデルのためのパッチトケンアライメントベイズ学習
- Authors: Xinyang Liu, Dongsheng Wang, Miaoge Li, Zhibin Duan, Yishi Xu, Bo
Chen, Mingyuan Zhou
- Abstract要約: ラベル固有のプロンプトを階層的に生成する。
我々は視覚知識と画像とそれに対応するプロンプトを最適輸送下でパッチやトークンセットとして意味的に正規化する。
提案手法は,インスタンス条件付きプロンプトを生成して一般化性を向上させる条件付きケースに容易に拡張できる。
- 参考スコア(独自算出の注目度): 48.37786467926044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For downstream applications of vision-language pre-trained models, there has
been significant interest in constructing effective prompts. Existing works on
prompt engineering, which either require laborious manual designs or optimize
the prompt tuning as a point estimation problem, may fail to describe diverse
characteristics of categories and limit their applications. We introduce a
Bayesian probabilistic resolution to prompt learning, where the label-specific
stochastic prompts are generated hierarchically by first sampling a latent
vector from an underlying distribution and then employing a lightweight
generative model. Importantly, we semantically regularize prompt learning with
the visual knowledge and view images and the corresponding prompts as patch and
token sets under optimal transport, which pushes the prompt tokens to
faithfully capture the label-specific visual concepts, instead of overfitting
the training categories. Moreover, the proposed model can also be
straightforwardly extended to the conditional case where the
instance-conditional prompts are generated to improve the generalizability.
Extensive experiments on 15 datasets show promising transferability and
generalization performance of our proposed model.
- Abstract(参考訳): 視覚言語事前学習モデルの下流への応用では,効果的なプロンプトの構築に多大な関心が寄せられている。
既存のプロンプトエンジニアリングの作業は、手間のかかる手動設計が必要か、ポイント推定問題としてプロンプトチューニングを最適化するかのいずれかであり、カテゴリの多様な特性を記述せず、アプリケーションを制限することはできない。
そこでは,ラベル固有の確率的プロンプトを階層的に生成し,まず下位分布から潜在ベクトルをサンプリングし,次いで軽量な生成モデルを用いて学習を促すベイズ確率論的解法を提案する。
重要なことに、私たちは視覚知識とビューイメージとそれに対応するプロンプトを最適なトランスポート下でパッチやトークンセットとして意味的に規則化し、トレーニングカテゴリを過度に適合させるのではなく、ラベル固有の視覚概念を忠実に捉えるようにプロンプトトークンをプッシュする。
さらに、提案モデルは、一般化性を改善するためにインスタンス条件付きプロンプトが生成される条件付きケースに簡単に拡張することもできる。
15のデータセットに対する大規模な実験により,提案モデルの有効性と一般化性能が示された。
関連論文リスト
- Understanding prompt engineering may not require rethinking
generalization [56.38207873589642]
言語モデルによって与えられるPAC-Bayesと組み合わさったプロンプトの離散的性質は、文献の標準によって非常に厳密な一般化境界をもたらすことを示す。
この研究は、プロンプトエンジニアリングの広範な実践を正当化する可能性がある。
論文 参考訳(メタデータ) (2023-10-06T00:52:48Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - On the Role of Attention in Prompt-tuning [90.97555030446563]
本研究では,一層アテンションアーキテクチャのプロンプトチューニングについて検討し,文脈混合モデルについて検討する。
ソフトマックス・プロンプト・アテンションは, ソフトマックス・自己アテンションやリニア・プロンプト・アテンションよりも明らかに表現力が高いことを示す。
また、実際のデータセットに関する理論的洞察を検証し、モデルが文脈関連情報にどのように対応できるかを示す実験も提供する。
論文 参考訳(メタデータ) (2023-06-06T06:23:38Z) - Retrieval-Enhanced Visual Prompt Learning for Few-shot Classification [10.709573361858613]
Retrieval-enhanced Prompt Learning (RePrompt)
本稿では,下流タスクから知識表現をキャッシュする検索機構を導入するRetrieval-enhanced Prompt Learning(RePrompt)を提案する。
RePromptがパフォーマンスを大幅に向上することを示すため,15のビジョンデータセットに対して,数ショット設定による11のダウンストリームタスクと4つのドメイン一般化ベンチマークを用いた実験を行った。
論文 参考訳(メタデータ) (2023-06-04T03:06:37Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - STPrompt: Semantic-guided and Task-driven prompts for Effective Few-shot
Classification [5.6205035780719275]
本稿ではSTPrompt-Semantic-GuidedおよびTask-driven Promptモデルを提案する。
提案モデルでは,テキスト分類タスクの5つの異なるデータセットにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-29T04:42:30Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。