論文の概要: Patch-Token Aligned Bayesian Prompt Learning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2303.09100v1
- Date: Thu, 16 Mar 2023 06:09:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 16:35:40.872423
- Title: Patch-Token Aligned Bayesian Prompt Learning for Vision-Language Models
- Title(参考訳): 視覚言語モデルのためのパッチトケンアライメントベイズ学習
- Authors: Xinyang Liu, Dongsheng Wang, Miaoge Li, Zhibin Duan, Yishi Xu, Bo
Chen, Mingyuan Zhou
- Abstract要約: ラベル固有のプロンプトを階層的に生成する。
我々は視覚知識と画像とそれに対応するプロンプトを最適輸送下でパッチやトークンセットとして意味的に正規化する。
提案手法は,インスタンス条件付きプロンプトを生成して一般化性を向上させる条件付きケースに容易に拡張できる。
- 参考スコア(独自算出の注目度): 48.37786467926044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For downstream applications of vision-language pre-trained models, there has
been significant interest in constructing effective prompts. Existing works on
prompt engineering, which either require laborious manual designs or optimize
the prompt tuning as a point estimation problem, may fail to describe diverse
characteristics of categories and limit their applications. We introduce a
Bayesian probabilistic resolution to prompt learning, where the label-specific
stochastic prompts are generated hierarchically by first sampling a latent
vector from an underlying distribution and then employing a lightweight
generative model. Importantly, we semantically regularize prompt learning with
the visual knowledge and view images and the corresponding prompts as patch and
token sets under optimal transport, which pushes the prompt tokens to
faithfully capture the label-specific visual concepts, instead of overfitting
the training categories. Moreover, the proposed model can also be
straightforwardly extended to the conditional case where the
instance-conditional prompts are generated to improve the generalizability.
Extensive experiments on 15 datasets show promising transferability and
generalization performance of our proposed model.
- Abstract(参考訳): 視覚言語事前学習モデルの下流への応用では,効果的なプロンプトの構築に多大な関心が寄せられている。
既存のプロンプトエンジニアリングの作業は、手間のかかる手動設計が必要か、ポイント推定問題としてプロンプトチューニングを最適化するかのいずれかであり、カテゴリの多様な特性を記述せず、アプリケーションを制限することはできない。
そこでは,ラベル固有の確率的プロンプトを階層的に生成し,まず下位分布から潜在ベクトルをサンプリングし,次いで軽量な生成モデルを用いて学習を促すベイズ確率論的解法を提案する。
重要なことに、私たちは視覚知識とビューイメージとそれに対応するプロンプトを最適なトランスポート下でパッチやトークンセットとして意味的に規則化し、トレーニングカテゴリを過度に適合させるのではなく、ラベル固有の視覚概念を忠実に捉えるようにプロンプトトークンをプッシュする。
さらに、提案モデルは、一般化性を改善するためにインスタンス条件付きプロンプトが生成される条件付きケースに簡単に拡張することもできる。
15のデータセットに対する大規模な実験により,提案モデルの有効性と一般化性能が示された。
関連論文リスト
- STPrompt: Semantic-guided and Task-driven prompts for Effective Few-shot
Classification [5.6205035780719275]
本稿ではSTPrompt-Semantic-GuidedおよびTask-driven Promptモデルを提案する。
提案モデルでは,テキスト分類タスクの5つの異なるデータセットにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-29T04:42:30Z) - Variational prompt tuning improves generalization of vision-language
models [72.67368357421938]
当社のアプローチは,標準および条件付きプロンプト学習フレームワークにシームレスに統合されていることを示す。
提案手法は,CoCoOpを標準ベンチマークで平均1.6%の精度で上回っている。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Prompt Learning with Optimal Transport for Vision-Language Models [25.928455328563402]
複数の包括的プロンプトを学習し、内在的属性や外在的文脈などのカテゴリの特徴を多様に記述する。
この問題を解決するために,視覚とテキストのモダリティに最適なトランスポートを提案する。
内ループでは、視覚的特徴とプロンプトをシンクホーンアルゴリズムで調整するために最適な輸送距離を最適化する一方、外ループでは、教師付きデータからこの距離でプロンプトを学習する。
論文 参考訳(メタデータ) (2022-10-03T22:21:07Z) - Class-Aware Visual Prompt Tuning for Vision-Language Pre-Trained Model [38.73758466286501]
本稿では,テキストプロンプトと視覚的プロンプトを同時に学習することで,デュアルモーダル・プロンプト・チューニングのパラダイムを提案する。
視覚的プロンプトを対象の視覚概念に集中させるため、クラス認識型視覚プロンプトチューニング(CAVPT)を提案する。
提案手法は,大規模な事前学習型視覚言語モデルをチューニングするための新しいパラダイムを提供する。
論文 参考訳(メタデータ) (2022-08-17T15:06:36Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
視覚言語によるコントラスト学習は,大量の画像キャプションペアデータを活用することによって,新たな学習パラダイムを提案する。
近年の研究では、クラスラベルをプロンプトと呼ばれる事前定義されたテンプレートで文に変換する方法が提案されている。
プレフィックストークンを用いて,これらの2種類の監督を統一する,シンプルかつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Eliciting Knowledge from Pretrained Language Models for Prototypical
Prompt Verbalizer [12.596033546002321]
本稿では,事前学習された言語モデルから知識を抽出することに集中し,プロンプト学習のためのプロトタイプなプロンプト動詞化手法を提案する。
ゼロショット設定では、知識は事前訓練された言語モデルから手動で設計され、初期プロトタイプの埋め込みを形成する。
数ショット設定では、モデルは有意義で解釈可能なプロトタイプの埋め込みを学ぶように調整される。
論文 参考訳(メタデータ) (2022-01-14T12:04:37Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z) - Learning to Prompt for Vision-Language Models [82.25005817904027]
視覚言語による事前学習が表現学習の有望な代替手段として登場した。
画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。
このようなパラダイムは、より広範な監視源の恩恵を受け、下流タスクへのゼロショット転送を可能にします。
論文 参考訳(メタデータ) (2021-09-02T17:57:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。