論文の概要: Prompting through Prototype: A Prototype-based Prompt Learning on
Pretrained Vision-Language Models
- arxiv url: http://arxiv.org/abs/2210.10841v1
- Date: Wed, 19 Oct 2022 19:13:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 13:29:32.703507
- Title: Prompting through Prototype: A Prototype-based Prompt Learning on
Pretrained Vision-Language Models
- Title(参考訳): 事前学習された視覚言語モデルを用いたプロトタイプベースプロンプト学習
- Authors: Yue Zhang, Hongliang Fei, Dingcheng Li, Tan Yu, Ping Li
- Abstract要約: 近年の研究では、迅速な学習は訓練データに制限がある数発の学習に特に有用であることが示されている。
上記の制約を克服するプロトタイプベースの即時学習手法を開発した。
PTPでは、画像プロトタイプは潜在空間内のある画像クラスタのセントロイドを表し、プロンプトプロトタイプは連続空間におけるソフトプロンプトとして定義される。
- 参考スコア(独自算出の注目度): 46.02539753821322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt learning is a new learning paradigm which reformulates downstream
tasks as similar pretraining tasks on pretrained models by leveraging textual
prompts. Recent works have demonstrated that prompt learning is particularly
useful for few-shot learning, where there is limited training data. Depending
on the granularity of prompts, those methods can be roughly divided into
task-level prompting and instance-level prompting. Task-level prompting methods
learn one universal prompt for all input samples, which is efficient but
ineffective to capture subtle differences among different classes.
Instance-level prompting methods learn a specific prompt for each input, though
effective but inefficient. In this work, we develop a novel prototype-based
prompt learning method to overcome the above limitations. In particular, we
focus on few-shot image recognition tasks on pretrained vision-language models
(PVLMs) and develop a method of prompting through prototype (PTP), where we
define $K$ image prototypes and $K$ prompt prototypes. In PTP, the image
prototype represents a centroid of a certain image cluster in the latent space
and a prompt prototype is defined as a soft prompt in the continuous space. The
similarity between a query image and an image prototype determines how much
this prediction relies on the corresponding prompt prototype. Hence, in PTP,
similar images will utilize similar prompting ways. Through extensive
experiments on seven real-world benchmarks, we show that PTP is an effective
method to leverage the latent knowledge and adaptive to various PVLMs.
Moreover, through detailed analysis, we discuss pros and cons for prompt
learning and parameter-efficient fine-tuning under the context of few-shot
learning.
- Abstract(参考訳): Prompt Learningは、テキストのプロンプトを活用することで、事前学習されたモデル上の同様の事前学習タスクとして下流タスクを再構成する新しい学習パラダイムである。
近年の研究では、迅速な学習は訓練データに制限がある数発の学習に特に有用であることが示されている。
プロンプトの粒度によって、これらの方法はタスクレベルのプロンプトとインスタンスレベルのプロンプトに大別できる。
タスクレベルのプロンプトメソッドは、すべての入力サンプルに対してひとつの普遍的なプロンプトを学習する。
インスタンスレベルのプロンプトメソッドは各入力に対して特定のプロンプトを学習するが、効果的だが非効率である。
本研究では,上記の制約を克服する新しいプロトタイプベースプロンプト学習法を開発した。
特に,事前学習された視覚言語モデル (pvlms) の少数ショット画像認識タスクに着目し,プロトタイプ (ptp) によるプロンプト手法を開発し, $k$ 画像プロトタイプと $k$ プロンプトプロトタイプを定義する。
PTPでは、画像プロトタイプは潜在空間内のある画像クラスタのセントロイドを表し、プロンプトプロトタイプは連続空間におけるソフトプロンプトとして定義される。
クエリ画像と画像プロトタイプの類似性は、この予測が対応するプロンプトプロトタイプに依存するかを決定する。
したがって、PTPでは、類似した画像が同様のプロンプト方式を利用することになる。
実世界の7つのベンチマークの広範な実験を通して、PTPは潜在知識を活用し、様々なPVLMに適応する有効な方法であることを示す。
さらに,詳細な解析を行い,短時間学習とパラメーター効率の良い微調整のための長所と短所について論じる。
関連論文リスト
- Proto-CLIP: Vision-Language Prototypical Network for Few-Shot Learning [16.613744920566436]
Proto-CLIPは、CLIPのような大規模ビジョン言語モデルに基づく、数発の学習のためのフレームワークである。
Proto-CLIPは、CLIPからのイメージとテキストエンコーダの埋め込みを、いくつかの例を使って共同で調整する。
Proto-CLIPにはトレーニング不要と微調整の2種類がある。
論文 参考訳(メタデータ) (2023-07-06T15:41:53Z) - MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text
Classification [65.51149771074944]
MetricPromptは、数発のテキスト分類タスクをテキストペア関連性推定タスクに書き換えることで、言語設計の難易度を緩和する。
広範に使われている3つのテキスト分類データセットを4つのショット・セッティングで実験する。
結果から,MetricPromptは,手動弁証法や自動弁証法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-06-15T06:51:35Z) - Multi-Prompt with Depth Partitioned Cross-Modal Learning [25.239388488952375]
Partitioned Multi-modal Prompt (PMPO) は、単一の学習可能なプロンプトから複数のプロンプトへのソフトプロンプトを拡張するマルチモーダルプロンプト技術である。
本手法は,視覚エンコーダ深度を分割し,学習可能なプロンプトを分離した視覚深度に接続することにより,階層的な文脈深度を捉えることができる。
我々は,新しいクラス一般化,クロスデータセット評価,ドメイン一般化の3つの課題に対して,アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-05-10T14:54:29Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - Multimodal Prototype-Enhanced Network for Few-Shot Action Recognition [40.329190454146996]
MultimOdal PRototype-ENhanced Network (MORN)は、ラベルテキストの意味情報をマルチモーダル情報として利用してプロトタイプを強化する。
我々は4つの一般的な数発のアクション認識データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-12-09T14:24:39Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z) - IDPG: An Instance-Dependent Prompt Generation Method [58.45110542003139]
Prompt tuningは、モデルトレーニング段階で各入力インスタンスにタスク固有のプロンプトを追加する、新しい、効率的なNLP転送学習パラダイムである。
本稿では,各入力インスタンスのプロンプトを生成する条件付きプロンプト生成手法を提案する。
論文 参考訳(メタデータ) (2022-04-09T15:45:27Z) - Instance-aware Prompt Learning for Language Understanding and Generation [49.22899822734549]
本稿では,インスタンス毎に異なるプロンプトを学習するインスタンス対応プロンプト学習手法を提案する。
提案手法は,SuperGLUE数ショット学習ベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-18T17:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。