論文の概要: Consistency-Guided Asynchronous Contrastive Tuning for Few-Shot Class-Incremental Tuning of Foundation Models
- arxiv url: http://arxiv.org/abs/2405.16625v2
- Date: Tue, 01 Apr 2025 19:28:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:16:26.897962
- Title: Consistency-Guided Asynchronous Contrastive Tuning for Few-Shot Class-Incremental Tuning of Foundation Models
- Title(参考訳): ファウンデーションモデルのFew-Shotクラスインクリメンタルチューニングのための一貫性誘導型非同期コントラストチューニング
- Authors: Shuvendu Roy, Elham Dolatabadi, Arash Afkanpour, Ali Etemad,
- Abstract要約: CoACTは、(i)非同期コントラストチューニング、(ii)制御された微調整、(iii)一貫性のあるインクリメンタルチューニングの3つの重要なコンポーネントから構成される。
提案したFew-Shot Class-Incremental Learning (FSCIL)とFew-Shot Class-Incremental Tuning (FSCIT)と呼ばれる新しい挑戦的なセットアップについて検討した。
CoACTは、FSCILで最大5.02%、個々のデータセットで最大12.51%、平均2.47%改善している。
- 参考スコア(独自算出の注目度): 19.165004570789755
- License:
- Abstract: We propose Consistency-guided Asynchronous Contrastive Tuning (CoACT), a novel method for continuously tuning foundation models to learn new classes in few-shot settings. CoACT consists of three key components:(i) asynchronous contrastive tuning, which learns new classes by including LoRA modules in the pre-trained encoder while enforcing consistency between two asynchronous encoders; (ii) controlled fine-tuning, which facilitates effective tuning of a subset of the foundation model; and (iii) consistency-guided incremental tuning, which enforces additional regularization during later sessions to reduce forgetting of the learned classes. We evaluate our proposed solution on Few-Shot Class-Incremental Learning (FSCIL) as well as a new and more challenging setup called Few-Shot Class-Incremental Tuning (FSCIT), which facilitates the continual tuning of vision foundation models to learn new classes with only a few samples per class. Unlike traditional FSCIL, FSCIT does not require a large in-distribution base session for initial fully supervised training prior to the incremental few-shot sessions. We conduct extensive evaluations across 16 diverse datasets, demonstrating the effectiveness of CoACT in both FSCIL and FSCIT setups. CoACT outperforms existing methods by up to 5.02% in FSCIL and up to 12.51% in FSCIT for individual datasets, with an average improvement of 2.47%. Furthermore, CoACT exhibits reduced forgetting and enhanced robustness in low-shot experiments. Detailed ablation and sensitivity studies highlight the contribution of each component of CoACT. We make our code publicly available at https://github.com/ShuvenduRoy/CoACT-FSCIL.
- Abstract(参考訳): 本稿では,一貫性誘導型非同期コントラストチューニング(CoACT)を提案する。
CoACTは3つの重要なコンポーネントから構成される。
i) 2つの非同期エンコーダ間の一貫性を保ちながら、事前訓練されたエンコーダにLoRAモジュールを含めることで、新しいクラスを学ぶ非同期コントラストチューニング。
(二)基礎モデルのサブセットの効果的なチューニングを容易にする微調整制御、及び
3) 整合性誘導型インクリメンタルチューニングは、後続のセッションで追加の規則化を強制し、学習したクラスの忘れを減らします。
本稿では,Few-Shot Class-Incremental Learning (FSCIL) とFew-Shot Class-Incremental Tuning (FSCIT) を併用し,視覚基礎モデルの連続的なチューニングを容易にする。
従来のFSCILとは異なり、FSCITはインクリメンタルな数発のセッションの前に、最初の完全な教師付きトレーニングのために大きな配布ベースセッションを必要としない。
我々は16の多様なデータセットに対して広範な評価を行い、FSCILとFSCITの両方でCoACTの有効性を実証した。
CoACTは、FSCILで最大5.02%、個々のデータセットで最大12.51%、平均2.47%改善している。
さらに、CoACTは低ショット実験において、忘れを減らし、堅牢性を高めている。
詳細なアブレーションと感度の研究は、CoACTの各成分の寄与を強調している。
コードをhttps://github.com/ShuvenduRoy/CoACT-FSCILで公開しています。
関連論文リスト
- DATA: Decomposed Attention-based Task Adaptation for Rehearsal-Free Continual Learning [22.386864304549285]
大規模言語モデル(LLM)では、継続的な学習(CL)が現実の要求に適応するために不可欠である。
近年のリハーサルフリー手法では、モデルベースおよび正規化ベースの戦略を用いてこの問題に対処している。
我々は、$textbfD$e $textbfA$ttention-based $textbfTask $textbfA$daptation ( data)を提案する。
データは、ハイランクなタスクアダプタとローランクなタスクアダプタを使用して、タスク固有の知識とタスク共有の知識を明示的に分離し、学習する。
論文 参考訳(メタデータ) (2025-02-17T06:35:42Z) - Towards Compatible Fine-tuning for Vision-Language Model Updates [114.25776195225494]
クラス条件付きコンテキスト最適化(ContCoOp)は、学習可能なプロンプトと、テキストエンコーダに入力する前に注意層を使用してクラス埋め込みを統合する。
15のデータセットで実験した結果,ContCoOpはベースライン法よりも高い互換性を示し,分布外一般化の堅牢性を示すことがわかった。
論文 参考訳(メタデータ) (2024-12-30T12:06:27Z) - High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - Combining Denoising Autoencoders with Contrastive Learning to fine-tune Transformer Models [0.0]
本研究は,分類タスクのベースモデルを調整するための3段階手法を提案する。
我々は,DAE(Denoising Autoencoder)を用いたさらなるトレーニングを行うことで,モデルの信号をデータ配信に適用する。
さらに、教師付きコントラスト学習のための新しいデータ拡張手法を導入し、不均衡なデータセットを修正する。
論文 参考訳(メタデータ) (2024-05-23T11:08:35Z) - Rethinking Few-shot 3D Point Cloud Semantic Segmentation [62.80639841429669]
本稿では,FS-PCSによる3Dポイント・クラウドセマンティックセマンティックセグメンテーションについて再検討する。
我々は、最先端の2つの重要な問題、前景の漏洩とスパースポイントの分布に焦点をあてる。
これらの問題に対処するために、新しいベンチマークを構築するための標準化されたFS-PCS設定を導入する。
論文 参考訳(メタデータ) (2024-03-01T15:14:47Z) - Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias in Foundation Models [75.9543301303586]
CLIPのようなファンデーションモデルは、追加のトレーニングデータなしで、さまざまなタスクでゼロショット転送を可能にする。
微調整やアンサンブルも一般的に下流のタスクに合うように採用されている。
しかし、先行研究は基礎モデルに固有のバイアスを見落としていると論じる。
論文 参考訳(メタデータ) (2023-10-12T08:01:11Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Modeling Inter-Class and Intra-Class Constraints in Novel Class
Discovery [20.67503042774617]
新たなクラス発見(NCD)は、クラス非結合なラベル付きデータセットから別の非ラベル付きデータセットへ共通の知識を転送するモデルを学ぶことを目的としている。
対称KKLD(Kullback-Leibler divergence)に基づくNCDにおけるクラス間制約とクラス内制約の両方をモデル化する。
論文 参考訳(メタデータ) (2022-10-07T14:46:32Z) - Rethinking Few-Shot Class-Incremental Learning with Open-Set Hypothesis
in Hyperbolic Geometry [21.38183613466714]
FSCIL(Few-Shot Class-Incremental Learning)は、いくつかのラベル付きサンプルから新しいクラスを段階的に学習することを目的としている。
本稿では,FSCILの構成をオープンセット仮説で再考する。
モデルにクローズセットとオープンセットの両方の認識により良いパフォーマンスを割り当てるために、ハイパーボリック・リシパル・ポイント・ラーニングモジュール(Hyper-RPL)は、ハイパーボリック・ニューラルネットワークを備えたリシパル・ポイント・ラーニング(Reciprocal Point Learning、RPL)上に構築されている。
論文 参考訳(メタデータ) (2022-07-20T15:13:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。