論文の概要: Few Shot Class Incremental Learning using Vision-Language models
- arxiv url: http://arxiv.org/abs/2405.01040v2
- Date: Thu, 15 Aug 2024 13:36:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 18:28:05.293311
- Title: Few Shot Class Incremental Learning using Vision-Language models
- Title(参考訳): 視覚言語モデルを用いたショット・インクリメンタル・ラーニング
- Authors: Anurag Kumar, Chinmay Bharti, Saikat Dutta, Srikrishna Karanam, Biplab Banerjee,
- Abstract要約: 本研究では,言語正規化器と部分空間正規化器を利用する,革新的な数ショットクラスインクリメンタルラーニング(FSCIL)フレームワークを提案する。
提案するフレームワークは,限られたデータを持つ新しいクラスをモデルに導入するだけでなく,ベースクラスのパフォーマンスの維持も保証する。
- 参考スコア(独自算出の注目度): 24.930246674021525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in deep learning have demonstrated remarkable performance comparable to human capabilities across various supervised computer vision tasks. However, the prevalent assumption of having an extensive pool of training data encompassing all classes prior to model training often diverges from real-world scenarios, where limited data availability for novel classes is the norm. The challenge emerges in seamlessly integrating new classes with few samples into the training data, demanding the model to adeptly accommodate these additions without compromising its performance on base classes. To address this exigency, the research community has introduced several solutions under the realm of few-shot class incremental learning (FSCIL). In this study, we introduce an innovative FSCIL framework that utilizes language regularizer and subspace regularizer. During base training, the language regularizer helps incorporate semantic information extracted from a Vision-Language model. The subspace regularizer helps in facilitating the model's acquisition of nuanced connections between image and text semantics inherent to base classes during incremental training. Our proposed framework not only empowers the model to embrace novel classes with limited data, but also ensures the preservation of performance on base classes. To substantiate the efficacy of our approach, we conduct comprehensive experiments on three distinct FSCIL benchmarks, where our framework attains state-of-the-art performance.
- Abstract(参考訳): 近年のディープラーニングの進歩は、様々な教師付きコンピュータビジョンタスクにおける人間の能力に匹敵する顕著な性能を示している。
しかしながら、モデルトレーニングに先立って、すべてのクラスを包含する広範なトレーニングデータを持つという前提は、新しいクラスの限られたデータ可用性が一般的である現実のシナリオとは相容れないことが多い。
この課題は、トレーニングデータに少数のサンプルを含む新しいクラスをシームレスに統合し、ベースクラスのパフォーマンスを損なうことなく、モデルがこれらの追加を順応的に適応するように要求することにある。
この緊急性に対処するため、研究コミュニティは数発のクラスインクリメンタルラーニング(FSCIL)の領域でいくつかのソリューションを導入している。
本研究では,言語正規化器と部分空間正規化器を利用した革新的なFSCILフレームワークを提案する。
ベーストレーニング中、言語正規化器はビジョンランゲージモデルから抽出された意味情報を組み込むのに役立つ。
サブスペース正規化器は、インクリメンタルトレーニング中にベースクラス固有の画像とテキストセマンティクス間のニュアンスド接続の取得を容易にする。
提案するフレームワークは,限られたデータを持つ新しいクラスをモデルに導入するだけでなく,ベースクラスのパフォーマンスの維持も保証する。
提案手法の有効性を確認するため,我々は3つの異なるFSCILベンチマークの総合的な実験を行い,そのフレームワークが最先端の性能を達成した。
関連論文リスト
- An Active Learning Framework for Inclusive Generation by Large Language Models [32.16984263644299]
大規模言語モデル(LLM)は、多様なサブ集団を表すテキストを生成する。
本稿では,知識蒸留により強化されたクラスタリングに基づくアクティブラーニングフレームワークを提案する。
2つの新しいデータセットをモデルトレーニングと組み合わせて構築し、ベースラインモデルよりも2%-10%の性能向上を示した。
論文 参考訳(メタデータ) (2024-10-17T15:09:35Z) - Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。
目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。
本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:26:30Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Read Between the Layers: Leveraging Multi-Layer Representations for Rehearsal-Free Continual Learning with Pre-Trained Models [15.847302755988506]
本研究では,非定常分布から連続的なタスク列を学習しなければならない連続学習問題に対処する。
プレトレーニングネットワークの複数の中間層からの2次特徴統計量を利用する,CL に対する新しいプロトタイプベースのアプローチである LayUP を提案する。
その結果、CLにおける事前学習モデルの表現能力を完全に消耗させることは、最終的な埋め込みをはるかに超えることを示した。
論文 参考訳(メタデータ) (2023-12-13T13:11:44Z) - One-Shot Open Affordance Learning with Foundation Models [54.15857111929812]
私たちは、モデルがベースオブジェクトカテゴリ毎に1つの例でトレーニングされる、ワンショットのオープンアフォーダンスラーニング(OOAL)を紹介します。
本稿では,視覚的特徴と手頃なテキスト埋め込みとの整合性を高める,シンプルで効果的な設計の視覚言語フレームワークを提案する。
2つのアベイランスセグメンテーションのベンチマーク実験により、提案手法はトレーニングデータの1%未満で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-11-29T16:23:06Z) - Robust Fine-Tuning of Vision-Language Models for Domain Generalization [6.7181844004432385]
ファンデーションモデルは、分散シフトの下で、印象的なゼロショット推論能力とロバスト性を持っている。
一般的な視覚言語基盤モデルCLIPの微調整のための新しいレシピを提案する。
私たちの実験では、ゼロショットCLIPは、より複雑なベンチマークでトレーニング済みのビジョンモデルのパフォーマンスと一致しないが、少数ショットCLIPの微調整は、ビジョンのみのパフォーマンスよりも優れていることを示した。
論文 参考訳(メタデータ) (2023-11-03T20:50:40Z) - Incremental Few-Shot Learning via Implanting and Compressing [13.122771115838523]
増分的なFew-Shot Learningは、いくつかの例から新しいクラスを継続的に学習するモデルを必要とする。
我々はtextbfImplanting と textbfCompressing と呼ばれる2段階の学習戦略を提案する。
具体的には、textbfImplantingのステップにおいて、新しいクラスのデータ分布をデータ・アサンダント・ベース・セットの助けを借りて模倣することを提案する。
textbfのステップでは、特徴抽出器を各新規クラスを正確に表現し、クラス内コンパクト性を高める。
論文 参考訳(メタデータ) (2022-03-19T11:04:43Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Novel Class Discovery in Semantic Segmentation [104.30729847367104]
セマンティックにおける新しいクラス発見(NCDSS)について紹介する。
ラベル付き非結合クラスの集合から事前の知識を与えられた新しいクラスを含むラベル付きイメージのセグメンテーションを目的としている。
NCDSSでは、オブジェクトと背景を区別し、画像内の複数のクラスの存在を処理する必要があります。
本稿では,エントロピーに基づく不確実性モデリングと自己学習(EUMS)フレームワークを提案し,ノイズの多い擬似ラベルを克服する。
論文 参考訳(メタデータ) (2021-12-03T13:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。