論文の概要: Few-Shot Recognition via Stage-Wise Augmented Finetuning
- arxiv url: http://arxiv.org/abs/2406.11148v1
- Date: Mon, 17 Jun 2024 02:27:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 18:43:55.321799
- Title: Few-Shot Recognition via Stage-Wise Augmented Finetuning
- Title(参考訳): ステージワイズ強化ファインタニングによるFew-Shot認識
- Authors: Tian Liu, Huixin Zhang, Shubham Parashar, Shu Kong,
- Abstract要約: ほとんどショット認識は、事前定義された概念のいくつかのラベル付き例で分類モデルを訓練することを目的としていない。
Retrieval-augmented learningは、下流の概念に関連する外部データから検索および学習することで、ゼロショット精度を高める。
数発の認識にALを応用するための新しい課題と機会を提示する。
- 参考スコア(独自算出の注目度): 8.348143234047486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot recognition aims to train a classification model with only a few labeled examples of pre-defined concepts, where annotation can be costly in a downstream task. In another related research area, zero-shot recognition, which assumes no access to any downstream-task data, has been greatly advanced by using pretrained Vision-Language Models (VLMs). In this area, retrieval-augmented learning (RAL) effectively boosts zero-shot accuracy by retrieving and learning from external data relevant to downstream concepts. Motivated by these advancements, our work explores RAL for few-shot recognition. While seemingly straightforward despite being under-explored in the literature (till now!), we present novel challenges and opportunities for applying RAL for few-shot recognition. First, perhaps surprisingly, simply finetuning the VLM on a large amount of retrieved data barely surpasses state-of-the-art zero-shot methods due to the imbalanced distribution of retrieved data and its domain gaps compared to few-shot annotated data. Second, finetuning a VLM on few-shot examples alone significantly outperforms prior methods, and finetuning on the mix of retrieved and few-shot data yields even better results. Third, to mitigate the imbalanced distribution and domain gap issue, we propose Stage-Wise Augmented fineTuning (SWAT) method, which involves end-to-end finetuning on mixed data for the first stage and retraining the classifier solely on the few-shot data in the second stage. Extensive experiments show that SWAT achieves the best performance on standard benchmark datasets, resoundingly outperforming prior works by ~10% in accuracy. Code is available at https://github.com/tian1327/SWAT.
- Abstract(参考訳): 少ないショット認識は、事前定義された概念のいくつかのラベル付き例で分類モデルをトレーニングすることを目的としており、ダウンストリームタスクではアノテーションがコストがかかる可能性がある。
別の研究領域では、ダウンストリームタスクデータへのアクセスを前提としないゼロショット認識が、事前訓練されたビジョンランゲージモデル(VLM)を用いて大幅に進歩している。
この領域において、検索強化学習(RAL)は、下流の概念に関連する外部データから抽出および学習することにより、ゼロショット精度を効果的に向上する。
これらの進歩に感銘を受けた我々の研究は、数発の認識のためにアラビアを探索する。
文献であまり研究されていないにもかかわらず(今はまだ!)、我々は、数発の認識にRALを適用するための新しい課題と機会を提示する。
まず、おそらく意外なことに、取得した大量のデータに対してVLMを微調整することは、取得したデータの不均衡な分布とドメインギャップのため、最先端のゼロショット法をわずかに超える。
第二に、少数ショットの例だけでVLMを微調整することは、以前の方法よりも大幅に優れており、検索したデータと少数ショットのデータの組み合わせによる微調整の方が、より優れた結果が得られる。
第3に,不均衡分布と領域ギャップの問題を軽減するために,第1段階の混合データに対してエンドツーエンドの微調整を行い,第2段階の少数ショットデータのみに基づいて分類器を再訓練するSWAT法を提案する。
大規模な実験により、SWATは標準ベンチマークデータセット上で最高のパフォーマンスを達成し、事前作業の精度が約10%向上したことが示された。
コードはhttps://github.com/tian1327/SWAT.comで入手できる。
関連論文リスト
- An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - Low-Rank Few-Shot Adaptation of Vision-Language Models [13.803180972839213]
視覚言語モデル(VLM)の少数ショット学習においてローランド適応(LoRA)を導入する。
驚くべきことに、我々の単純なCLIP-LoRA法は、トレーニング時間を短縮しつつ、大幅に改善されている。
本研究の結果は,アクセシブルラーニングとアダプタベースの研究の可能性を否定するものではない。
論文 参考訳(メタデータ) (2024-05-28T19:16:59Z) - EffoVPR: Effective Foundation Model Utilization for Visual Place Recognition [6.996304653818122]
本稿では,視覚的位置認識のための基盤モデルの可能性を活用するための,シンプルながら強力なアプローチを提案する。
まず、自己注意層から抽出した機能が、VPRの強力なリランカとして機能することを実証する。
次に、内部のViT層をプールに利用した単一ステージの手法が、最先端の結果をもたらすグローバルな特徴を生み出すことを実証した。
論文 参考訳(メタデータ) (2024-05-28T11:24:41Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - A Global Model Approach to Robust Few-Shot SAR Automatic Target
Recognition [6.260916845720537]
ディープラーニングベースのSAR自動ターゲット認識(ATR)モデルをトレーニングするために、クラス毎に数百のラベル付きサンプルを収集できるとは限らない。
この研究は特に数発のSAR ATR問題に対処しており、興味のあるタスクをサポートするためにラベル付きサンプルがわずかである。
論文 参考訳(メタデータ) (2023-03-20T00:24:05Z) - Continual Contrastive Finetuning Improves Low-Resource Relation
Extraction [34.76128090845668]
関係抽出は低リソースのシナリオやドメインでは特に困難である。
近年の文献は自己教師型学習によって低リソースREに取り組みつつある。
コントラスト学習の一貫した目的を用いたREモデルの事前学習と微調整を提案する。
論文 参考訳(メタデータ) (2022-12-21T07:30:22Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。