論文の概要: Rethinking Few-Shot Adaptation of Vision-Language Models in Two Stages
- arxiv url: http://arxiv.org/abs/2503.11609v1
- Date: Fri, 14 Mar 2025 17:24:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:14.846382
- Title: Rethinking Few-Shot Adaptation of Vision-Language Models in Two Stages
- Title(参考訳): 視覚・言語モデルの2段階におけるFew-Shot適応の再考
- Authors: Matteo Farina, Massimiliano Mancini, Giovanni Iacca, Elisa Ricci,
- Abstract要約: FSA(Few-Shot Adaptation)では、データは大量のパラメータに適合するには不十分であり、上記の非現実的である。
このスキームを2段階Few-Shot Adaptation (2SFS)と呼ぶ。
2SFS は最先端の手法と一致しているか,あるいは超越しているかを示す一方で,確立された手法は設定によって著しく劣化することを示す。
- 参考スコア(独自算出の注目度): 28.834044800595716
- License:
- Abstract: An old-school recipe for training a classifier is to (i) learn a good feature extractor and (ii) optimize a linear layer atop. When only a handful of samples are available per category, as in Few-Shot Adaptation (FSA), data are insufficient to fit a large number of parameters, rendering the above impractical. This is especially true with large pre-trained Vision-Language Models (VLMs), which motivated successful research at the intersection of Parameter-Efficient Fine-tuning (PEFT) and FSA. In this work, we start by analyzing the learning dynamics of PEFT techniques when trained on few-shot data from only a subset of categories, referred to as the ``base'' classes. We show that such dynamics naturally splits into two distinct phases: (i) task-level feature extraction and (ii) specialization to the available concepts. To accommodate this dynamic, we then depart from prompt- or adapter-based methods and tackle FSA differently. Specifically, given a fixed computational budget, we split it to (i) learn a task-specific feature extractor via PEFT and (ii) train a linear classifier on top. We call this scheme Two-Stage Few-Shot Adaptation (2SFS). Differently from established methods, our scheme enables a novel form of selective inference at a category level, i.e., at test time, only novel categories are embedded by the adapted text encoder, while embeddings of base categories are available within the classifier. Results with fixed hyperparameters across two settings, three backbones, and eleven datasets, show that 2SFS matches or surpasses the state-of-the-art, while established methods degrade significantly across settings.
- Abstract(参考訳): 分類器を訓練するための古風なレシピは
(i)優れた特徴抽出器を学習し、
(ii) 直線層をその上に最適化する。
Few-Shot Adaptation (FSA)のように、カテゴリ毎に少数のサンプルしか利用できない場合、データは多数のパラメータに適合するには不十分であり、上記の非現実的である。
これは特に、パラメータ効率ファインチューニング(PEFT)とFSAの交差点で成功した研究の動機となった大きな事前訓練されたビジョンランゲージモデル(VLM)に当てはまる。
本研究では,PEFT手法の学習力学を,'base'クラスと呼ばれるカテゴリのサブセットのみから学習した際の解析から始める。
このような力学が自然に2つの異なる位相に分裂していることが示される。
(i)タスクレベルの特徴抽出
(二)利用可能な概念に特化すること。
このダイナミックさに対応するため、我々はプロンプトまたはアダプタベースのメソッドから離れ、異なる方法でFSAに取り組む。
具体的には、固定された計算予算を考えると、それを分割します。
i)PEFTを介してタスク固有の特徴抽出器を学習し、
(ii) 上部に線形分類器を訓練する。
この方式を2段階Few-Shot Adaptation (2SFS)と呼ぶ。
確立された手法とは違って,本手法では,カテゴリレベルでの新たな選択推論,すなわちテスト時に,適応されたテキストエンコーダによってのみ新規カテゴリが組み込まれ,ベースカテゴリの埋め込みが分類器内で利用可能となる。
2つの設定、3つのバックボーン、11のデータセットにまたがる固定されたハイパーパラメータの結果、2SFSが最先端と一致または超え、確立されたメソッドは設定間で大幅に低下している。
関連論文リスト
- Label Anything: An Interpretable, High-Fidelity and Prompt-Free Annotator [29.2532061585323]
従来の手動ラベリングは、ロバストモデルをトレーニングするために大量のデータに注釈を付けるのに高コストである。
本稿では,解釈可能な高忠実度データアノテータとして機能するラベル随伴モデル (LAM) を提案する。
LAMは複数の実世界のデータセットに対して高忠実度アノテーション(ほぼ100%mIoU)を生成することができる。
論文 参考訳(メタデータ) (2025-02-05T08:14:52Z) - UIFormer: A Unified Transformer-based Framework for Incremental Few-Shot Object Detection and Instance Segmentation [38.331860053615955]
本稿では,Transformerアーキテクチャを用いたインクリメンタルな小ショットオブジェクト検出(iFSOD)とインスタンスセグメンテーション(iFSIS)のための新しいフレームワークを提案する。
私たちのゴールは、新しいオブジェクトクラスのいくつかの例しか利用できない状況に対して最適なソリューションを作ることです。
論文 参考訳(メタデータ) (2024-11-13T12:29:44Z) - Language-aware Multiple Datasets Detection Pretraining for DETRs [4.939595148195813]
本稿では,METR と呼ばれる DETR 型検出器の事前学習に複数のデータセットを利用するためのフレームワークを提案する。
事前訓練された言語モデルを導入することにより、オブジェクト検出の典型的なマルチクラス化をバイナリ分類に変換する。
マルチタスク・ジョイントトレーニングとプレトレイン・ファネチューン・パラダイムのいずれにおいても,METRは異常な結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-07T10:34:04Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - First Session Adaptation: A Strong Replay-Free Baseline for
Class-Incremental Learning [26.88977803220915]
First Session Adaptation (FSA)は、トレーニング済みのニューラルネットワーク本体を最初の学習セッションのみに適応させ、その後修正する。
FSAは検討された16項目のうち15項目において、最先端よりも大幅に改善されている。
本稿では,身体適応の利点を予測できる非ラベル入力の集合に適用可能な尺度を提案する。
論文 参考訳(メタデータ) (2023-03-23T11:54:41Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Sylph: A Hypernetwork Framework for Incremental Few-shot Object
Detection [8.492340530784697]
大量のデータを含む多くの基本カテゴリがメタトレーニングに利用できる場合、ファネチューンフリーのiFSDは極めて有効であることを示す。
我々はCOCOとLVISの両方でモデルをベンチマークし、LVISの長テールレアクラスで最大17%のAPを報告した。
論文 参考訳(メタデータ) (2022-03-25T20:39:00Z) - CIM: Class-Irrelevant Mapping for Few-Shot Classification [58.02773394658623]
FSC(Few-shot Classification)は近年のホットな問題の一つである。
事前訓練されたFEMを評価する方法は、FSCコミュニティにおいて最も重要な焦点である。
CIM(Class-Irrelevant Mapping)と呼ばれるシンプルなフレキシブルな手法を提案する。
論文 参考訳(メタデータ) (2021-09-07T03:26:24Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - Contrastive Prototype Learning with Augmented Embeddings for Few-Shot
Learning [58.2091760793799]
拡張埋め込み(CPLAE)モデルを用いた新しいコントラスト型プロトタイプ学習を提案する。
クラスプロトタイプをアンカーとして、CPLは、同じクラスのクエリサンプルを、異なるクラスのサンプルを、さらに遠くに引き出すことを目的としている。
いくつかのベンチマークによる大規模な実験により,提案したCPLAEが新たな最先端を実現することが示された。
論文 参考訳(メタデータ) (2021-01-23T13:22:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。