Fugu-MT 論文翻訳(概要): Retrieval-Enhanced Visual Prompt Learning for Few-shot Classification

論文の概要: Retrieval-Enhanced Visual Prompt Learning for Few-shot Classification

arxiv url: http://arxiv.org/abs/2306.02243v3
Date: Thu, 21 Nov 2024 04:12:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:28.967063
Title: Retrieval-Enhanced Visual Prompt Learning for Few-shot Classification
Title（参考訳）: ファウショット分類のための検索機能強化型ビジュアルプロンプト学習
Authors: Jintao Rong, Hao Chen, Linlin Ou, Tianxiao Chen, Xinyi Yu, Yifan Liu,
Abstract要約: 本稿では,下流タスクの知識をキャッシュし再利用するための検索強化ビジュアルプロンプト学習(RePrompt)を提案する。推測中、我々の拡張モデルは、より正確な予測を行うために、検索によってもたらされた類似のサンプルを参照することができる。 RePromptは、幅広いビジョンデータセット上で最先端のパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 9.843214426749764
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Contrastive Language-Image Pretraining (CLIP) model has been widely used in various downstream vision tasks. The few-shot learning paradigm has been widely adopted to augment its capacity for these tasks. However, current paradigms may struggle with fine-grained classification, such as satellite image recognition, due to widening domain gaps. To address this limitation, we propose retrieval-enhanced visual prompt learning (RePrompt), which introduces retrieval mechanisms to cache and reuse the knowledge of downstream tasks. RePrompt constructs a retrieval database from either training examples or external data if available, and uses a retrieval mechanism to enhance multiple stages of a simple prompt learning baseline, thus narrowing the domain gap. During inference, our enhanced model can reference similar samples brought by retrieval to make more accurate predictions. A detailed analysis reveals that retrieval helps to improve the distribution of late features, thus, improving generalization for downstream tasks. Reprompt attains state-of-the-art performance on a wide range of vision datasets, including 11 image datasets, 3 video datasets, 1 multi-view dataset, and 4 domain generalization benchmarks.
Abstract（参考訳）: Contrastive Language-Image Pretraining (CLIP)モデルは、様々な下流視覚タスクで広く使われている。数発の学習パラダイムは、これらのタスクの能力を高めるために広く採用されている。しかし、現在のパラダイムは、領域のギャップが広がるため、衛星画像認識のようなきめ細かい分類に苦慮する可能性がある。この制限に対処するために、下流タスクの知識をキャッシュし再利用するための検索機構を導入した検索強化視覚的プロンプト学習(RePrompt)を提案する。 RePromptは、トレーニング例または外部データから利用可能であれば検索データベースを構築し、検索メカニズムを使用して単純な素早い学習ベースラインの複数のステージを強化し、ドメインギャップを狭める。推測中、我々の拡張モデルは、より正確な予測を行うために、検索によってもたらされた類似のサンプルを参照することができる。詳細な分析により、検索は後期特徴の分布を改善するのに役立ち、下流タスクの一般化を改善することが判明した。 Repromptは、11の画像データセット、3つのビデオデータセット、1つのマルチビューデータセット、4つのドメイン一般化ベンチマークを含む、幅広いビジョンデータセットで最先端のパフォーマンスを実現する。

関連論文リスト

DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories [52.57197752244638]
本稿では,画像検索を自律探索タスクとして再構成する新しいエージェントパラダイムであるDeepImageSearchを紹介する。モデルは、暗黙の文脈的手がかりに基づいてターゲットを特定するために、生の視覚履歴に対して多段階の推論を計画し実行しなければならない。 DisBenchは、相互接続された視覚データ上に構築された、挑戦的なベンチマークである。
論文参考訳（メタデータ） (2026-02-11T12:51:10Z)
Decoupling Augmentation Bias in Prompt Learning for Vision-Language Models [8.634414503821697]
CoCoOpのような手法は、手作りのプロンプトを、プロンプトラーニングとして知られる学習可能なベクトルに置き換えることで、パフォーマンスが向上することを示した。従来のゼロショット学習技術は、様々なデータ拡張戦略の恩恵を受けているが、迅速な学習は主にテキストベースの修正に焦点を当てている。画像レベルの拡張、特に属性固有のバリエーションを導入し、迅速な学習をサポートし、強化する方法について検討する。
論文参考訳（メタデータ） (2025-11-05T11:15:16Z)
Generalized Contrastive Learning for Universal Multimodal Retrieval [53.70202081784898]
クロスモーダル検索モデル(例えばCLIP)は、融合した画像テキストのモダリティからなるキーを検索することで、劣化したパフォーマンスを示す。本稿では,新たなデータセットキュレーションを必要とせずに,マルチモーダル検索性能を向上させる新しい損失定式化である汎用コントラスト学習(GCL)を提案する。
論文参考訳（メタデータ） (2025-09-30T01:25:04Z)
Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。 VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文参考訳（メタデータ） (2025-09-23T16:22:27Z)
QuARI: Query Adaptive Retrieval Improvement [10.896025071832055]
本稿では, 関心領域に関連する部分空間を強調することにより, 実例検索のために訓練したVLM機能の線形変換により, 性能の向上が期待できることを示す。この変換は線形であるため、数百万の画像埋め込みに最小の計算コストで適用することができる。以上の結果から,この手法は問合せ時に桁違いに多くの命令を必要とするものなど,最先端の代替手段を一貫して上回っていることが示唆された。
論文参考訳（メタデータ） (2025-05-27T18:21:48Z)
Generative Compositor for Few-Shot Visual Information Extraction [60.663887314625164]
生成空間モデルとして生成空間モデル(Generative Generative Spacetor)を提案する。ジェネレーティブジェネレーター(Generative Generative Spacetor)は、ソーステキストから単語を検索することでコンポジタの操作をエミュレートするハイブリッドポインタージェネレータネットワークである。提案手法は,1ショット,5ショット,10ショットの設定において,ベースラインを上回りながら,フルサンプルトレーニングにおいて高い競争力を発揮する。
論文参考訳（メタデータ） (2025-03-21T04:56:24Z)
USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation [24.90512145836643]
本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
論文参考訳（メタデータ） (2024-12-12T12:20:27Z)
DIR: Retrieval-Augmented Image Captioning with Comprehensive Understanding [10.347788969721844]
Dive Into Retrieval (DIR) は、画像からテキストへの検索プロセスと、検索したテキストの利用の両方を強化するように設計されている。 DIRはドメイン内性能の競争力を維持するだけでなく、ドメイン外の一般化も大幅に改善する。
論文参考訳（メタデータ） (2024-12-02T04:39:17Z)
RoRA-VLM: Robust Retrieval-Augmented Vision Language Models [41.09545760534495]
RORA-VLMは、視覚言語モデルに特化して設計された、新規で堅牢な検索拡張フレームワークである。提案手法の有効性とロバスト性を,広く採用されている3つのベンチマークデータセット上で検証する。
論文参考訳（メタデータ） (2024-10-11T14:51:00Z)
RAVEN: Multitask Retrieval Augmented Vision-Language Learning [5.1583788731239455]
世界中の知識をエンコードする大規模言語モデルのスケーリングは持続不可能であり、リソースバリアが悪化している。 Retrieval-Augmented Generation (RAG) は潜在的な解決策を示すが、その視覚言語モデル(VLM)への応用は検討中である。本稿では,効率的なタスク特化微調整により,ベースVLMを強化した検索拡張VLMフレームワークであるRAVENを紹介する。
論文参考訳（メタデータ） (2024-06-27T13:08:35Z)
Advancing Image Retrieval with Few-Shot Learning and Relevance Feedback [5.770351255180495]
Image Retrieval with Relevance Feedback (IRRF) は、検索プロセス中に反復的なヒューマンインタラクションを伴う。本稿では,タスクに適したハイパーネットワークに基づく新しいスキームを提案し,ユーザフィードバックの迅速な調整を容易にする。提案手法は,数発の1クラス分類でSoTAを達成でき,数発のオープンセット認識のバイナリ分類タスクで同等の結果が得られることを示す。
論文参考訳（メタデータ） (2023-12-18T10:20:28Z)
Accelerating exploration and representation learning with offline pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文参考訳（メタデータ） (2023-03-31T18:03:30Z)
Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文参考訳（メタデータ） (2023-03-24T16:32:19Z)
SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。 SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。 13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文参考訳（メタデータ） (2022-11-28T14:58:15Z)
An Empirical Investigation of Representation Learning for Imitation [76.48784376425911]
視覚、強化学習、NLPにおける最近の研究は、補助的な表現学習の目的が、高価なタスク固有の大量のデータの必要性を減らすことを示している。本稿では,表現学習アルゴリズムを構築するためのモジュラーフレームワークを提案する。
論文参考訳（メタデータ） (2022-05-16T11:23:42Z)
Connecting Images through Time and Sources: Introducing Low-data, Heterogeneous Instance Retrieval [3.6526118822907594]
バリエーションやセマンティックな内容のパネルによく反応する機能を選択するのは簡単ではないことを示す。 Alegoriaベンチマークの新しい拡張バージョンを導入し、詳細なアノテーションを使って記述子を比較します。
論文参考訳（メタデータ） (2021-03-19T10:54:51Z)
Region Comparison Network for Interpretable Few-shot Image Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文参考訳（メタデータ） (2020-09-08T07:29:05Z)
Complementing Representation Deficiency in Few-shot Image Classification: A Meta-Learning Approach [27.350615059290348]
本稿では,MCRNetを用いたメタラーニング手法を提案する。特に、潜時空間を埋め込んで、潜時符号を余分な表現情報で再構成し、表現不足を補完する。我々のエンドツーエンドフレームワークは、3つの標準的な数ショット学習データセット上の画像分類における最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2020-07-21T13:25:54Z)
Learning What Makes a Difference from Counterfactual Examples and Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2020-04-20T02:47:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。