Fugu-MT 論文翻訳(概要): Retrieval-Enhanced Visual Prompt Learning for Few-shot Classification

論文の概要: Retrieval-Enhanced Visual Prompt Learning for Few-shot Classification

arxiv url: http://arxiv.org/abs/2306.02243v1
Date: Sun, 4 Jun 2023 03:06:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-06 19:05:17.783675
Title: Retrieval-Enhanced Visual Prompt Learning for Few-shot Classification
Title（参考訳）: 検索エンハンスド・ビジュアルプロンプト学習によるマイトショット分類
Authors: Jintao Rong, Hao Chen, Tianxiao Chen, Linlin Ou, Xinyi Yu, Yifan Liu
Abstract要約: Retrieval-enhanced Prompt Learning (RePrompt) 本稿では,下流タスクから知識表現をキャッシュする検索機構を導入するRetrieval-enhanced Prompt Learning(RePrompt)を提案する。 RePromptがパフォーマンスを大幅に向上することを示すため,15のビジョンデータセットに対して,数ショット設定による11のダウンストリームタスクと4つのドメイン一般化ベンチマークを用いた実験を行った。
参考スコア（独自算出の注目度）: 10.709573361858613
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prompt learning has become a popular approach for adapting large vision-language models, such as CLIP, to downstream tasks. Typically, prompt learning relies on a fixed prompt token or an input-conditional token to fit a small amount of data under full supervision. While this paradigm can generalize to a certain range of unseen classes, it may struggle when domain gap increases, such as in fine-grained classification and satellite image segmentation. To address this limitation, we propose Retrieval-enhanced Prompt learning (RePrompt), which introduces retrieval mechanisms to cache the knowledge representations from downstream tasks. we first construct a retrieval database from training examples, or from external examples when available. We then integrate this retrieval-enhanced mechanism into various stages of a simple prompt learning baseline. By referencing similar samples in the training set, the enhanced model is better able to adapt to new tasks with few samples. Our extensive experiments over 15 vision datasets, including 11 downstream tasks with few-shot setting and 4 domain generalization benchmarks, demonstrate that RePrompt achieves considerably improved performance. Our proposed approach provides a promising solution to the challenges faced by prompt learning when domain gap increases. The code and models will be available.
Abstract（参考訳）: プロンプト学習は、CLIPのような大規模な視覚言語モデルを下流タスクに適用するための一般的なアプローチとなっている。通常、プロンプト学習は固定されたプロンプトトークンまたは入力条件トークンに依存し、完全な管理下で少量のデータに適合する。このパラダイムは一定範囲の未発見のクラスに一般化することができるが、細粒度分類や衛星画像のセグメンテーションなど、ドメインのギャップが増加すると苦労する可能性がある。この制限に対処するため,下流タスクから知識表現をキャッシュする検索機構を導入するRetrieval-enhanced Prompt Learning (RePrompt)を提案する。まず,トレーニング例や外部例から検索データベースを構築する。次に,この検索エンハンスド機構を,簡単なプロンプト学習ベースラインの様々な段階に統合する。トレーニングセットで同様のサンプルを参照することで、拡張されたモデルは、わずかなサンプルで新しいタスクに適応できる。 15のビジョンデータセットに対する広範な実験では、数ショット設定による11のダウンストリームタスクと4つのドメイン一般化ベンチマークが、RePromptが大幅なパフォーマンス向上を実現していることを実証しています。提案手法は,ドメインギャップが大きくなると,素早い学習によって直面する課題に対して,有望な解決策を提供する。コードとモデルは利用可能になる。

関連論文リスト

QuARI: Query Adaptive Retrieval Improvement [10.896025071832055]
本稿では, 関心領域に関連する部分空間を強調することにより, 実例検索のために訓練したVLM機能の線形変換により, 性能の向上が期待できることを示す。この変換は線形であるため、数百万の画像埋め込みに最小の計算コストで適用することができる。以上の結果から,この手法は問合せ時に桁違いに多くの命令を必要とするものなど,最先端の代替手段を一貫して上回っていることが示唆された。
論文参考訳（メタデータ） (2025-05-27T18:21:48Z)
Generative Compositor for Few-Shot Visual Information Extraction [60.663887314625164]
生成空間モデルとして生成空間モデル(Generative Generative Spacetor)を提案する。ジェネレーティブジェネレーター(Generative Generative Spacetor)は、ソーステキストから単語を検索することでコンポジタの操作をエミュレートするハイブリッドポインタージェネレータネットワークである。提案手法は,1ショット,5ショット,10ショットの設定において,ベースラインを上回りながら,フルサンプルトレーニングにおいて高い競争力を発揮する。
論文参考訳（メタデータ） (2025-03-21T04:56:24Z)
USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation [24.90512145836643]
本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
論文参考訳（メタデータ） (2024-12-12T12:20:27Z)
DIR: Retrieval-Augmented Image Captioning with Comprehensive Understanding [10.347788969721844]
Dive Into Retrieval (DIR) は、画像からテキストへの検索プロセスと、検索したテキストの利用の両方を強化するように設計されている。 DIRはドメイン内性能の競争力を維持するだけでなく、ドメイン外の一般化も大幅に改善する。
論文参考訳（メタデータ） (2024-12-02T04:39:17Z)
RoRA-VLM: Robust Retrieval-Augmented Vision Language Models [41.09545760534495]
RORA-VLMは、視覚言語モデルに特化して設計された、新規で堅牢な検索拡張フレームワークである。提案手法の有効性とロバスト性を,広く採用されている3つのベンチマークデータセット上で検証する。
論文参考訳（メタデータ） (2024-10-11T14:51:00Z)
RAVEN: Multitask Retrieval Augmented Vision-Language Learning [5.1583788731239455]
世界中の知識をエンコードする大規模言語モデルのスケーリングは持続不可能であり、リソースバリアが悪化している。 Retrieval-Augmented Generation (RAG) は潜在的な解決策を示すが、その視覚言語モデル(VLM)への応用は検討中である。本稿では,効率的なタスク特化微調整により,ベースVLMを強化した検索拡張VLMフレームワークであるRAVENを紹介する。
論文参考訳（メタデータ） (2024-06-27T13:08:35Z)
Advancing Image Retrieval with Few-Shot Learning and Relevance Feedback [5.770351255180495]
Image Retrieval with Relevance Feedback (IRRF) は、検索プロセス中に反復的なヒューマンインタラクションを伴う。本稿では,タスクに適したハイパーネットワークに基づく新しいスキームを提案し,ユーザフィードバックの迅速な調整を容易にする。提案手法は,数発の1クラス分類でSoTAを達成でき,数発のオープンセット認識のバイナリ分類タスクで同等の結果が得られることを示す。
論文参考訳（メタデータ） (2023-12-18T10:20:28Z)
Accelerating exploration and representation learning with offline pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文参考訳（メタデータ） (2023-03-31T18:03:30Z)
Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文参考訳（メタデータ） (2023-03-24T16:32:19Z)
SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。 SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。 13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文参考訳（メタデータ） (2022-11-28T14:58:15Z)
An Empirical Investigation of Representation Learning for Imitation [76.48784376425911]
視覚、強化学習、NLPにおける最近の研究は、補助的な表現学習の目的が、高価なタスク固有の大量のデータの必要性を減らすことを示している。本稿では,表現学習アルゴリズムを構築するためのモジュラーフレームワークを提案する。
論文参考訳（メタデータ） (2022-05-16T11:23:42Z)
Connecting Images through Time and Sources: Introducing Low-data, Heterogeneous Instance Retrieval [3.6526118822907594]
バリエーションやセマンティックな内容のパネルによく反応する機能を選択するのは簡単ではないことを示す。 Alegoriaベンチマークの新しい拡張バージョンを導入し、詳細なアノテーションを使って記述子を比較します。
論文参考訳（メタデータ） (2021-03-19T10:54:51Z)
Region Comparison Network for Interpretable Few-shot Image Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文参考訳（メタデータ） (2020-09-08T07:29:05Z)
Complementing Representation Deficiency in Few-shot Image Classification: A Meta-Learning Approach [27.350615059290348]
本稿では,MCRNetを用いたメタラーニング手法を提案する。特に、潜時空間を埋め込んで、潜時符号を余分な表現情報で再構成し、表現不足を補完する。我々のエンドツーエンドフレームワークは、3つの標準的な数ショット学習データセット上の画像分類における最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2020-07-21T13:25:54Z)
Learning What Makes a Difference from Counterfactual Examples and Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2020-04-20T02:47:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。