Fugu-MT 論文翻訳(概要): Few-Shot Recognition via Stage-Wise Retrieval-Augmented Finetuning

論文の概要: Few-Shot Recognition via Stage-Wise Retrieval-Augmented Finetuning

arxiv url: http://arxiv.org/abs/2406.11148v2
Date: Sun, 24 Nov 2024 00:25:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.714633
Title: Few-Shot Recognition via Stage-Wise Retrieval-Augmented Finetuning
Title（参考訳）: ステージワイズ検索機能付ファインタニングによるFew-Shot認識
Authors: Tian Liu, Huixin Zhang, Shubham Parashar, Shu Kong,
Abstract要約: 少ないショット認識は、下流タスクに関連する各概念のラベル付き例でのみ、分類モデルをトレーニングすることを目的としている。事前学習型視覚言語モデル(VLM)を利用してFSRの解法を開発する。
参考スコア（独自算出の注目度）: 8.348143234047486
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Few-shot recognition (FSR) aims to train a classification model with only a few labeled examples of each concept concerned by a downstream task, where data annotation cost can be prohibitively high. We develop methods to solve FSR by leveraging a pretrained Vision-Language Model (VLM). We particularly explore retrieval-augmented learning (RAL), which retrieves data from the VLM's pretraining set to learn better models for serving downstream tasks. RAL has been widely studied in zero-shot recognition but remains under-explored in FSR. Although applying RAL to FSR may seem straightforward, we observe interesting and novel challenges and opportunities. First, somewhat surprisingly, finetuning a VLM on a large amount of retrieved data underperforms state-of-the-art zero-shot methods. This is due to the imbalanced distribution of retrieved data and its domain gaps with the few-shot examples in the downstream task. Second, more surprisingly, we find that simply finetuning a VLM solely on few-shot examples significantly outperforms previous FSR methods, and finetuning on the mix of retrieved and few-shot data yields even better results. Third, to mitigate the imbalanced distribution and domain gap issues, we propose Stage-Wise retrieval-Augmented fineTuning (SWAT), which involves end-to-end finetuning on mixed data in the first stage and retraining the classifier on the few-shot data in the second stage. Extensive experiments on nine popular benchmarks demonstrate that SWAT significantly outperforms previous methods by $>$6% accuracy.
Abstract（参考訳）: FSR(Few-shot Recognition)は、データアノテーションのコストが禁じられるようなダウンストリームタスクに関連する概念のラベル付き例を少数含む分類モデルをトレーニングすることを目的としている。本研究では,予め訓練された視覚言語モデル(VLM)を活用することにより,FSRの解法を開発する。我々は特に,VLMの事前学習セットからデータを取得し,下流タスクに役立てるためのより良いモデルを学習する検索強化学習(RAL)について検討する。 RALはゼロショット認識において広く研究されてきたが、FSRでは未発見のままである。 ALをFSRに適用することは簡単に見えるかもしれないが、興味深く新しい課題や機会を観察する。まず、検索した大量のデータに対するVLMの微調整は、最先端のゼロショット法を過小評価する。これは、取得したデータの不均衡な分布と、ダウンストリームタスクのいくつかの例とドメインギャップが原因である。第2に、より驚くべきことに、VLMを少数ショットの例のみに微調整するだけで、以前のFSR法よりも大幅に優れ、検索されたデータと少数ショットのデータの組み合わせによる微調整により、より優れた結果が得られる。第3に,不均衡分布と領域ギャップの問題を軽減するため,第1段階の混合データに対するエンドツーエンドの微調整と第2段階の少数ショットデータに対する分類器の再訓練を含むSWAT(Stage-Wise Search-Augmented FineTuning)を提案する。 9つの人気のあるベンチマークの大規模な実験は、SWATが従来の手法を精度$6%以上で大幅に上回っていることを示している。

関連論文リスト

Active Learning via Vision-Language Model Adaptation with Open Data [33.33210375336842]
アクティブラーニング(AL)は、ラベリングとモデルトレーニングのための最も情報性の高いデータを戦略的に選択することで、データラベリングのコストを削減することを目的としている。近年のAL法では VLM を探索しているが,VLM の事前表現データのような公開公開データの活用はされていない。本研究では、タスク関連事例を検索してタスク特化例を増やすことで、そのようなデータを活用する。
論文参考訳（メタデータ） (2025-06-02T14:30:04Z)
Prompt Tuning Vision Language Models with Margin Regularizer for Few-Shot Learning under Distribution Shifts [13.21626568246313]
視覚言語基礎モデルが、分布やクラスが全く異なるデータセットに適応できるかどうかを解析する。本稿では,少数のサンプルに対して,このような大規模VLMを直接適用するための新しいプロンプトチューニング手法であるPromptMarginを提案する。 PromptMarginは、このタスクのテキストと視覚的なプロンプトを効果的に調整し、2つのメインモジュールを持っている。
論文参考訳（メタデータ） (2025-05-21T13:26:56Z)
SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文参考訳（メタデータ） (2025-02-24T07:15:05Z)
An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文参考訳（メタデータ） (2024-11-08T12:08:17Z)
Low-Rank Few-Shot Adaptation of Vision-Language Models [13.803180972839213]
視覚言語モデル(VLM)の少数ショット学習においてローランド適応(LoRA)を導入する。驚くべきことに、我々の単純なCLIP-LoRA法は、トレーニング時間を短縮しつつ、大幅に改善されている。本研究の結果は,アクセシブルラーニングとアダプタベースの研究の可能性を否定するものではない。
論文参考訳（メタデータ） (2024-05-28T19:16:59Z)
EffoVPR: Effective Foundation Model Utilization for Visual Place Recognition [6.996304653818122]
本稿では,視覚的位置認識のための基盤モデルの可能性を活用するための,シンプルながら強力なアプローチを提案する。まず、自己注意層から抽出した機能が、VPRの強力なリランカとして機能することを実証する。次に、内部のViT層をプールに利用した単一ステージの手法が、最先端の結果をもたらすグローバルな特徴を生み出すことを実証した。
論文参考訳（メタデータ） (2024-05-28T11:24:41Z)
Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-02-22T12:55:01Z)
Take the Bull by the Horns: Hard Sample-Reweighted Continual Training Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文参考訳（メタデータ） (2024-02-22T04:10:57Z)
Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文参考訳（メタデータ） (2023-11-29T05:33:28Z)
Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。実験結果から,本手法は既存手法よりも一貫した改善が得られた。我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文参考訳（メタデータ） (2023-11-27T06:19:50Z)
A Global Model Approach to Robust Few-Shot SAR Automatic Target Recognition [6.260916845720537]
ディープラーニングベースのSAR自動ターゲット認識(ATR)モデルをトレーニングするために、クラス毎に数百のラベル付きサンプルを収集できるとは限らない。この研究は特に数発のSAR ATR問題に対処しており、興味のあるタスクをサポートするためにラベル付きサンプルがわずかである。
論文参考訳（メタデータ） (2023-03-20T00:24:05Z)
Continual Contrastive Finetuning Improves Low-Resource Relation Extraction [34.76128090845668]
関係抽出は低リソースのシナリオやドメインでは特に困難である。近年の文献は自己教師型学習によって低リソースREに取り組みつつある。コントラスト学習の一貫した目的を用いたREモデルの事前学習と微調整を提案する。
論文参考訳（メタデータ） (2022-12-21T07:30:22Z)
Open-Sampling: Exploring Out-of-Distribution data for Re-balancing Long-tailed datasets [24.551465814633325]
深層ニューラルネットワークは通常、トレーニングデータセットが極端なクラス不均衡に苦しむ場合、パフォーマンスが良くない。近年の研究では、半教師付き方式でアウト・オブ・ディストリビューションデータによる直接トレーニングが一般化性能を損なうことが報告されている。そこで我々は,オープンセットノイズラベルを用いて学習データセットのクラス前のバランスを再調整する,オープンサンプリングと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2022-06-17T14:29:52Z)
Self-Supervised Pre-Training for Transformer-Based Person Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文参考訳（メタデータ） (2021-11-23T18:59:08Z)
Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文参考訳（メタデータ） (2021-08-12T09:14:44Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。