論文の概要: Few-Shot Recognition via Stage-Wise Augmented Finetuning
- arxiv url: http://arxiv.org/abs/2406.11148v1
- Date: Mon, 17 Jun 2024 02:27:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 18:43:55.321799
- Title: Few-Shot Recognition via Stage-Wise Augmented Finetuning
- Title(参考訳): ステージワイズ強化ファインタニングによるFew-Shot認識
- Authors: Tian Liu, Huixin Zhang, Shubham Parashar, Shu Kong,
- Abstract要約: ほとんどショット認識は、事前定義された概念のいくつかのラベル付き例で分類モデルを訓練することを目的としていない。
Retrieval-augmented learningは、下流の概念に関連する外部データから検索および学習することで、ゼロショット精度を高める。
数発の認識にALを応用するための新しい課題と機会を提示する。
- 参考スコア(独自算出の注目度): 8.348143234047486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot recognition aims to train a classification model with only a few labeled examples of pre-defined concepts, where annotation can be costly in a downstream task. In another related research area, zero-shot recognition, which assumes no access to any downstream-task data, has been greatly advanced by using pretrained Vision-Language Models (VLMs). In this area, retrieval-augmented learning (RAL) effectively boosts zero-shot accuracy by retrieving and learning from external data relevant to downstream concepts. Motivated by these advancements, our work explores RAL for few-shot recognition. While seemingly straightforward despite being under-explored in the literature (till now!), we present novel challenges and opportunities for applying RAL for few-shot recognition. First, perhaps surprisingly, simply finetuning the VLM on a large amount of retrieved data barely surpasses state-of-the-art zero-shot methods due to the imbalanced distribution of retrieved data and its domain gaps compared to few-shot annotated data. Second, finetuning a VLM on few-shot examples alone significantly outperforms prior methods, and finetuning on the mix of retrieved and few-shot data yields even better results. Third, to mitigate the imbalanced distribution and domain gap issue, we propose Stage-Wise Augmented fineTuning (SWAT) method, which involves end-to-end finetuning on mixed data for the first stage and retraining the classifier solely on the few-shot data in the second stage. Extensive experiments show that SWAT achieves the best performance on standard benchmark datasets, resoundingly outperforming prior works by ~10% in accuracy. Code is available at https://github.com/tian1327/SWAT.
- Abstract(参考訳): 少ないショット認識は、事前定義された概念のいくつかのラベル付き例で分類モデルをトレーニングすることを目的としており、ダウンストリームタスクではアノテーションがコストがかかる可能性がある。
別の研究領域では、ダウンストリームタスクデータへのアクセスを前提としないゼロショット認識が、事前訓練されたビジョンランゲージモデル(VLM)を用いて大幅に進歩している。
この領域において、検索強化学習(RAL)は、下流の概念に関連する外部データから抽出および学習することにより、ゼロショット精度を効果的に向上する。
これらの進歩に感銘を受けた我々の研究は、数発の認識のためにアラビアを探索する。
文献であまり研究されていないにもかかわらず(今はまだ!)、我々は、数発の認識にRALを適用するための新しい課題と機会を提示する。
まず、おそらく意外なことに、取得した大量のデータに対してVLMを微調整することは、取得したデータの不均衡な分布とドメインギャップのため、最先端のゼロショット法をわずかに超える。
第二に、少数ショットの例だけでVLMを微調整することは、以前の方法よりも大幅に優れており、検索したデータと少数ショットのデータの組み合わせによる微調整の方が、より優れた結果が得られる。
第3に,不均衡分布と領域ギャップの問題を軽減するために,第1段階の混合データに対してエンドツーエンドの微調整を行い,第2段階の少数ショットデータのみに基づいて分類器を再訓練するSWAT法を提案する。
大規模な実験により、SWATは標準ベンチマークデータセット上で最高のパフォーマンスを達成し、事前作業の精度が約10%向上したことが示された。
コードはhttps://github.com/tian1327/SWAT.comで入手できる。
関連論文リスト
- Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification [34.37262622415682]
我々はData Adaptive Tracebackと呼ばれる新しい適応フレームワークを提案する。
具体的には、ゼロショット法を用いて、事前学習データの最もダウンストリームなタスク関連サブセットを抽出する。
我々は、擬似ラベルに基づく半教師付き手法を採用し、事前学習画像の再利用と、半教師付き学習における確証バイアス問題に対処するための視覚言語コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:01:58Z) - Conditional Prototype Rectification Prompt Learning [32.533844163120875]
本稿では, 基本事例のバイアスを補正し, 限られたデータを効果的に拡張するための, CPR(Prototype Rectification Prompt Learning)手法を提案する。
CPRは、いくつかのショット分類とベース・ツー・ニューな一般化タスクの両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-15T15:43:52Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - GenCo: An Auxiliary Generator from Contrastive Learning for Enhanced
Few-Shot Learning in Remote Sensing [9.504503675097137]
我々は、バックボーンを事前訓練し、同時に特徴サンプルの変種を探索するジェネレータベースのコントラスト学習フレームワーク(GenCo)を導入する。
微調整では、補助ジェネレータを使用して、特徴空間内の限られたラベル付きデータサンプルを濃縮することができる。
本稿では,2つの重要なリモートセンシングデータセットにおいて,この手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-07-27T03:59:19Z) - Revisit Few-shot Intent Classification with PLMs: Direct Fine-tuning vs.
Continual Pre-training [19.299285312415734]
少量のラベル付きデータのみを使用して、基礎となる意図に基づいて発話を分類するために、深層学習モデルを訓練する。
この課題に対するPLMの過度な適合問題は、予想されるほど深刻ではないため、継続事前学習は必須ではない可能性がある。
限られた利用可能なデータの利用を最大化するために,コンテキスト拡張法を提案し,逐次自己蒸留を利用して性能を向上させる。
論文 参考訳(メタデータ) (2023-06-08T15:26:52Z) - On Measuring the Intrinsic Few-Shot Hardness of Datasets [49.37562545777455]
トレーニング済みのモデルに対して、データセットに固有の数ショットの硬さを示す。
そこで我々は,数発の学習が可能な直感をとらえる,シンプルで軽量な尺度"Spread"を提案する。
我々の測定基準は、既存の硬さの概念に比べて数発の硬さを考慮し、計算が8~100倍高速である。
論文 参考訳(メタデータ) (2022-11-16T18:53:52Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。