論文の概要: Few-Shot Recognition via Stage-Wise Retrieval-Augmented Finetuning
- arxiv url: http://arxiv.org/abs/2406.11148v2
- Date: Sun, 24 Nov 2024 00:25:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:17:29.503356
- Title: Few-Shot Recognition via Stage-Wise Retrieval-Augmented Finetuning
- Title(参考訳): ステージワイズ検索機能付ファインタニングによるFew-Shot認識
- Authors: Tian Liu, Huixin Zhang, Shubham Parashar, Shu Kong,
- Abstract要約: 少ないショット認識は、下流タスクに関連する各概念のラベル付き例でのみ、分類モデルをトレーニングすることを目的としている。
事前学習型視覚言語モデル(VLM)を利用してFSRの解法を開発する。
- 参考スコア(独自算出の注目度): 8.348143234047486
- License:
- Abstract: Few-shot recognition (FSR) aims to train a classification model with only a few labeled examples of each concept concerned by a downstream task, where data annotation cost can be prohibitively high. We develop methods to solve FSR by leveraging a pretrained Vision-Language Model (VLM). We particularly explore retrieval-augmented learning (RAL), which retrieves data from the VLM's pretraining set to learn better models for serving downstream tasks. RAL has been widely studied in zero-shot recognition but remains under-explored in FSR. Although applying RAL to FSR may seem straightforward, we observe interesting and novel challenges and opportunities. First, somewhat surprisingly, finetuning a VLM on a large amount of retrieved data underperforms state-of-the-art zero-shot methods. This is due to the imbalanced distribution of retrieved data and its domain gaps with the few-shot examples in the downstream task. Second, more surprisingly, we find that simply finetuning a VLM solely on few-shot examples significantly outperforms previous FSR methods, and finetuning on the mix of retrieved and few-shot data yields even better results. Third, to mitigate the imbalanced distribution and domain gap issues, we propose Stage-Wise retrieval-Augmented fineTuning (SWAT), which involves end-to-end finetuning on mixed data in the first stage and retraining the classifier on the few-shot data in the second stage. Extensive experiments on nine popular benchmarks demonstrate that SWAT significantly outperforms previous methods by $>$6% accuracy.
- Abstract(参考訳): FSR(Few-shot Recognition)は、データアノテーションのコストが禁じられるようなダウンストリームタスクに関連する概念のラベル付き例を少数含む分類モデルをトレーニングすることを目的としている。
本研究では,予め訓練された視覚言語モデル(VLM)を活用することにより,FSRの解法を開発する。
我々は特に,VLMの事前学習セットからデータを取得し,下流タスクに役立てるためのより良いモデルを学習する検索強化学習(RAL)について検討する。
RALはゼロショット認識において広く研究されてきたが、FSRでは未発見のままである。
ALをFSRに適用することは簡単に見えるかもしれないが、興味深く新しい課題や機会を観察する。
まず、検索した大量のデータに対するVLMの微調整は、最先端のゼロショット法を過小評価する。
これは、取得したデータの不均衡な分布と、ダウンストリームタスクのいくつかの例とドメインギャップが原因である。
第2に、より驚くべきことに、VLMを少数ショットの例のみに微調整するだけで、以前のFSR法よりも大幅に優れ、検索されたデータと少数ショットのデータの組み合わせによる微調整により、より優れた結果が得られる。
第3に,不均衡分布と領域ギャップの問題を軽減するため,第1段階の混合データに対するエンドツーエンドの微調整と第2段階の少数ショットデータに対する分類器の再訓練を含むSWAT(Stage-Wise Search-Augmented FineTuning)を提案する。
9つの人気のあるベンチマークの大規模な実験は、SWATが従来の手法を精度$6%以上で大幅に上回っていることを示している。
関連論文リスト
- An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - Low-Rank Few-Shot Adaptation of Vision-Language Models [13.803180972839213]
視覚言語モデル(VLM)の少数ショット学習においてローランド適応(LoRA)を導入する。
驚くべきことに、我々の単純なCLIP-LoRA法は、トレーニング時間を短縮しつつ、大幅に改善されている。
本研究の結果は,アクセシブルラーニングとアダプタベースの研究の可能性を否定するものではない。
論文 参考訳(メタデータ) (2024-05-28T19:16:59Z) - EffoVPR: Effective Foundation Model Utilization for Visual Place Recognition [6.996304653818122]
本稿では,視覚的位置認識のための基盤モデルの可能性を活用するための,シンプルながら強力なアプローチを提案する。
まず、自己注意層から抽出した機能が、VPRの強力なリランカとして機能することを実証する。
次に、内部のViT層をプールに利用した単一ステージの手法が、最先端の結果をもたらすグローバルな特徴を生み出すことを実証した。
論文 参考訳(メタデータ) (2024-05-28T11:24:41Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - A Global Model Approach to Robust Few-Shot SAR Automatic Target
Recognition [6.260916845720537]
ディープラーニングベースのSAR自動ターゲット認識(ATR)モデルをトレーニングするために、クラス毎に数百のラベル付きサンプルを収集できるとは限らない。
この研究は特に数発のSAR ATR問題に対処しており、興味のあるタスクをサポートするためにラベル付きサンプルがわずかである。
論文 参考訳(メタデータ) (2023-03-20T00:24:05Z) - Continual Contrastive Finetuning Improves Low-Resource Relation
Extraction [34.76128090845668]
関係抽出は低リソースのシナリオやドメインでは特に困難である。
近年の文献は自己教師型学習によって低リソースREに取り組みつつある。
コントラスト学習の一貫した目的を用いたREモデルの事前学習と微調整を提案する。
論文 参考訳(メタデータ) (2022-12-21T07:30:22Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。