論文の概要: Retrieval-Enhanced Visual Prompt Learning for Few-shot Classification
- arxiv url: http://arxiv.org/abs/2306.02243v1
- Date: Sun, 4 Jun 2023 03:06:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 19:05:17.783675
- Title: Retrieval-Enhanced Visual Prompt Learning for Few-shot Classification
- Title(参考訳): 検索エンハンスド・ビジュアルプロンプト学習によるマイトショット分類
- Authors: Jintao Rong, Hao Chen, Tianxiao Chen, Linlin Ou, Xinyi Yu, Yifan Liu
- Abstract要約: Retrieval-enhanced Prompt Learning (RePrompt)
本稿では,下流タスクから知識表現をキャッシュする検索機構を導入するRetrieval-enhanced Prompt Learning(RePrompt)を提案する。
RePromptがパフォーマンスを大幅に向上することを示すため,15のビジョンデータセットに対して,数ショット設定による11のダウンストリームタスクと4つのドメイン一般化ベンチマークを用いた実験を行った。
- 参考スコア(独自算出の注目度): 10.709573361858613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt learning has become a popular approach for adapting large
vision-language models, such as CLIP, to downstream tasks. Typically, prompt
learning relies on a fixed prompt token or an input-conditional token to fit a
small amount of data under full supervision. While this paradigm can generalize
to a certain range of unseen classes, it may struggle when domain gap
increases, such as in fine-grained classification and satellite image
segmentation. To address this limitation, we propose Retrieval-enhanced Prompt
learning (RePrompt), which introduces retrieval mechanisms to cache the
knowledge representations from downstream tasks. we first construct a retrieval
database from training examples, or from external examples when available. We
then integrate this retrieval-enhanced mechanism into various stages of a
simple prompt learning baseline. By referencing similar samples in the training
set, the enhanced model is better able to adapt to new tasks with few samples.
Our extensive experiments over 15 vision datasets, including 11 downstream
tasks with few-shot setting and 4 domain generalization benchmarks, demonstrate
that RePrompt achieves considerably improved performance. Our proposed approach
provides a promising solution to the challenges faced by prompt learning when
domain gap increases. The code and models will be available.
- Abstract(参考訳): プロンプト学習は、CLIPのような大規模な視覚言語モデルを下流タスクに適用するための一般的なアプローチとなっている。
通常、プロンプト学習は固定されたプロンプトトークンまたは入力条件トークンに依存し、完全な管理下で少量のデータに適合する。
このパラダイムは一定範囲の未発見のクラスに一般化することができるが、細粒度分類や衛星画像のセグメンテーションなど、ドメインのギャップが増加すると苦労する可能性がある。
この制限に対処するため,下流タスクから知識表現をキャッシュする検索機構を導入するRetrieval-enhanced Prompt Learning (RePrompt)を提案する。
まず,トレーニング例や外部例から検索データベースを構築する。
次に,この検索エンハンスド機構を,簡単なプロンプト学習ベースラインの様々な段階に統合する。
トレーニングセットで同様のサンプルを参照することで、拡張されたモデルは、わずかなサンプルで新しいタスクに適応できる。
15のビジョンデータセットに対する広範な実験では、数ショット設定による11のダウンストリームタスクと4つのドメイン一般化ベンチマークが、RePromptが大幅なパフォーマンス向上を実現していることを実証しています。
提案手法は,ドメインギャップが大きくなると,素早い学習によって直面する課題に対して,有望な解決策を提供する。
コードとモデルは利用可能になる。
関連論文リスト
- RoRA-VLM: Robust Retrieval-Augmented Vision Language Models [41.09545760534495]
RORA-VLMは、視覚言語モデルに特化して設計された、新規で堅牢な検索拡張フレームワークである。
提案手法の有効性とロバスト性を,広く採用されている3つのベンチマークデータセット上で検証する。
論文 参考訳(メタデータ) (2024-10-11T14:51:00Z) - RAVEN: Multitask Retrieval Augmented Vision-Language Learning [5.1583788731239455]
世界中の知識をエンコードする大規模言語モデルのスケーリングは持続不可能であり、リソースバリアが悪化している。
Retrieval-Augmented Generation (RAG) は潜在的な解決策を示すが、その視覚言語モデル(VLM)への応用は検討中である。
本稿では,効率的なタスク特化微調整により,ベースVLMを強化した検索拡張VLMフレームワークであるRAVENを紹介する。
論文 参考訳(メタデータ) (2024-06-27T13:08:35Z) - Advancing Image Retrieval with Few-Shot Learning and Relevance Feedback [5.770351255180495]
Image Retrieval with Relevance Feedback (IRRF) は、検索プロセス中に反復的なヒューマンインタラクションを伴う。
本稿では,タスクに適したハイパーネットワークに基づく新しいスキームを提案し,ユーザフィードバックの迅速な調整を容易にする。
提案手法は,数発の1クラス分類でSoTAを達成でき,数発のオープンセット認識のバイナリ分類タスクで同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-12-18T10:20:28Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - An Empirical Investigation of Representation Learning for Imitation [76.48784376425911]
視覚、強化学習、NLPにおける最近の研究は、補助的な表現学習の目的が、高価なタスク固有の大量のデータの必要性を減らすことを示している。
本稿では,表現学習アルゴリズムを構築するためのモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-16T11:23:42Z) - Connecting Images through Time and Sources: Introducing Low-data,
Heterogeneous Instance Retrieval [3.6526118822907594]
バリエーションやセマンティックな内容のパネルによく反応する機能を選択するのは簡単ではないことを示す。
Alegoriaベンチマークの新しい拡張バージョンを導入し、詳細なアノテーションを使って記述子を比較します。
論文 参考訳(メタデータ) (2021-03-19T10:54:51Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z) - Complementing Representation Deficiency in Few-shot Image
Classification: A Meta-Learning Approach [27.350615059290348]
本稿では,MCRNetを用いたメタラーニング手法を提案する。
特に、潜時空間を埋め込んで、潜時符号を余分な表現情報で再構成し、表現不足を補完する。
我々のエンドツーエンドフレームワークは、3つの標準的な数ショット学習データセット上の画像分類における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-21T13:25:54Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。