論文の概要: Retrieval-Enhanced Visual Prompt Learning for Few-shot Classification
- arxiv url: http://arxiv.org/abs/2306.02243v1
- Date: Sun, 4 Jun 2023 03:06:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 19:05:17.783675
- Title: Retrieval-Enhanced Visual Prompt Learning for Few-shot Classification
- Title(参考訳): 検索エンハンスド・ビジュアルプロンプト学習によるマイトショット分類
- Authors: Jintao Rong, Hao Chen, Tianxiao Chen, Linlin Ou, Xinyi Yu, Yifan Liu
- Abstract要約: Retrieval-enhanced Prompt Learning (RePrompt)
本稿では,下流タスクから知識表現をキャッシュする検索機構を導入するRetrieval-enhanced Prompt Learning(RePrompt)を提案する。
RePromptがパフォーマンスを大幅に向上することを示すため,15のビジョンデータセットに対して,数ショット設定による11のダウンストリームタスクと4つのドメイン一般化ベンチマークを用いた実験を行った。
- 参考スコア(独自算出の注目度): 10.709573361858613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt learning has become a popular approach for adapting large
vision-language models, such as CLIP, to downstream tasks. Typically, prompt
learning relies on a fixed prompt token or an input-conditional token to fit a
small amount of data under full supervision. While this paradigm can generalize
to a certain range of unseen classes, it may struggle when domain gap
increases, such as in fine-grained classification and satellite image
segmentation. To address this limitation, we propose Retrieval-enhanced Prompt
learning (RePrompt), which introduces retrieval mechanisms to cache the
knowledge representations from downstream tasks. we first construct a retrieval
database from training examples, or from external examples when available. We
then integrate this retrieval-enhanced mechanism into various stages of a
simple prompt learning baseline. By referencing similar samples in the training
set, the enhanced model is better able to adapt to new tasks with few samples.
Our extensive experiments over 15 vision datasets, including 11 downstream
tasks with few-shot setting and 4 domain generalization benchmarks, demonstrate
that RePrompt achieves considerably improved performance. Our proposed approach
provides a promising solution to the challenges faced by prompt learning when
domain gap increases. The code and models will be available.
- Abstract(参考訳): プロンプト学習は、CLIPのような大規模な視覚言語モデルを下流タスクに適用するための一般的なアプローチとなっている。
通常、プロンプト学習は固定されたプロンプトトークンまたは入力条件トークンに依存し、完全な管理下で少量のデータに適合する。
このパラダイムは一定範囲の未発見のクラスに一般化することができるが、細粒度分類や衛星画像のセグメンテーションなど、ドメインのギャップが増加すると苦労する可能性がある。
この制限に対処するため,下流タスクから知識表現をキャッシュする検索機構を導入するRetrieval-enhanced Prompt Learning (RePrompt)を提案する。
まず,トレーニング例や外部例から検索データベースを構築する。
次に,この検索エンハンスド機構を,簡単なプロンプト学習ベースラインの様々な段階に統合する。
トレーニングセットで同様のサンプルを参照することで、拡張されたモデルは、わずかなサンプルで新しいタスクに適応できる。
15のビジョンデータセットに対する広範な実験では、数ショット設定による11のダウンストリームタスクと4つのドメイン一般化ベンチマークが、RePromptが大幅なパフォーマンス向上を実現していることを実証しています。
提案手法は,ドメインギャップが大きくなると,素早い学習によって直面する課題に対して,有望な解決策を提供する。
コードとモデルは利用可能になる。
関連論文リスト
- PRE: Vision-Language Prompt Learning with Reparameterization Encoder [26.017809323969285]
CLIPのような訓練済みの大規模な視覚言語モデルは、下流タスクへのゼロショット転送可能性に大きな可能性を証明している。
最適な性能を得るためには、下流画像分布とテキストクラス記述との整合性を改善するために、手動によるプロンプトの選択が必要である。
非自明なプロンプトエンジニアリングを避けるため、最近の作業コンテキスト最適化(CoOp)では、学習可能なテキストトークンを使用して視覚領域にプロンプト学習という概念を導入した。
論文 参考訳(メタデータ) (2023-09-14T14:48:01Z) - Patch-Token Aligned Bayesian Prompt Learning for Vision-Language Models [48.37786467926044]
ラベル固有のプロンプトを階層的に生成する。
我々は視覚知識と画像とそれに対応するプロンプトを最適輸送下でパッチやトークンセットとして意味的に正規化する。
提案手法は,インスタンス条件付きプロンプトを生成して一般化性を向上させる条件付きケースに容易に拡張できる。
論文 参考訳(メタデータ) (2023-03-16T06:09:15Z) - Learning Domain Invariant Prompt for Vision-Language Models [31.581652862478965]
本稿では,メタプロンプト(MetaPrompt)と呼ばれる未確認領域に一般化可能な,固有領域不変プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。
我々の手法は既存の手法より一貫して大幅に優れています。
論文 参考訳(メタデータ) (2022-12-08T11:23:24Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - Reordering Examples Helps during Priming-based Few-Shot Learning [6.579039107070663]
PERO は 10 個の例から効率よく一般化できることを示す。
提案手法が感情分類,自然言語推論,事実検索のタスクに与える影響を実証する。
論文 参考訳(メタデータ) (2021-06-03T11:02:36Z) - Revisiting Deep Local Descriptor for Improved Few-Shot Classification [56.74552164206737]
textbfDense textbfClassification と textbfAttentive textbfPooling を利用して埋め込みの質を向上させる方法を示す。
広範に使われているグローバル平均プール (GAP) の代わりに, 注意深いプールを施し, 特徴マップをプールすることを提案する。
論文 参考訳(メタデータ) (2021-03-30T00:48:28Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。