論文の概要: Representation Calibration and Uncertainty Guidance for Class-Incremental Learning based on Vision Language Model
- arxiv url: http://arxiv.org/abs/2512.09441v1
- Date: Wed, 10 Dec 2025 09:09:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.456832
- Title: Representation Calibration and Uncertainty Guidance for Class-Incremental Learning based on Vision Language Model
- Title(参考訳): 視覚言語モデルに基づくクラス増分学習における表現校正と不確実性指導
- Authors: Jiantao Tan, Peixian Ma, Tong Yu, Wentao Zhang, Ruixuan Wang,
- Abstract要約: クラス増分学習は、新しいクラスの知識を継続的に習得する学習システムを必要とする。
VLM(Vision-Language Models)に基づく現在の手法は、学習タスク間のクラスの違いの問題に悩まされている。
ここでは、画像分類のための新しいVLMベースの連続学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.04660341150286
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Class-incremental learning requires a learning system to continually learn knowledge of new classes and meanwhile try to preserve previously learned knowledge of old classes. As current state-of-the-art methods based on Vision-Language Models (VLMs) still suffer from the issue of differentiating classes across learning tasks. Here a novel VLM-based continual learning framework for image classification is proposed. In this framework, task-specific adapters are added to the pre-trained and frozen image encoder to learn new knowledge, and a novel cross-task representation calibration strategy based on a mixture of light-weight projectors is used to help better separate all learned classes in a unified feature space, alleviating class confusion across tasks. In addition, a novel inference strategy guided by prediction uncertainty is developed to more accurately select the most appropriate image feature for class prediction. Extensive experiments on multiple datasets under various settings demonstrate the superior performance of our method compared to existing ones.
- Abstract(参考訳): クラス増分学習は、新しいクラスの知識を継続的に学習する学習システムを必要とし、一方、古いクラスの学習知識を保存しようとする。
VLM(Vision-Language Models)に基づく現在の最先端の手法は、まだ学習タスク間のクラスの違いの問題に悩まされている。
ここでは、画像分類のための新しいVLMベースの連続学習フレームワークを提案する。
このフレームワークでは、学習済みで凍結したイメージエンコーダにタスク固有のアダプタを追加して新しい知識を学習し、軽量プロジェクタの混合に基づく新しいクロスタスク表現キャリブレーション戦略を用いて、学習されたクラスを統一された特徴空間内でよりよく分離し、タスク間のクラス混乱を軽減する。
さらに、予測不確実性によって導かれる新しい推論戦略を開発し、クラス予測に最適な画像特徴をより正確に選択する。
各種設定下での複数のデータセットに対する大規模な実験は,既存のデータセットと比較して,提案手法の優れた性能を示す。
関連論文リスト
- Zero-Shot Fine-Grained Image Classification Using Large Vision-Language Models [4.499940819352075]
LVLM(Large Vision-Language Models)は、視覚言語推論タスクにおいて顕著な性能を示す。
ゼロショットのきめ細かい画像分類を視覚的問合せフレームワークに変換する新しい手法を提案する。
提案手法は現状のSOTA(State-of-the-art)手法より一貫して優れている。
論文 参考訳(メタデータ) (2025-10-04T18:56:41Z) - Towards Generative Class Prompt Learning for Fine-grained Visual Recognition [5.633314115420456]
ジェネレーティブ・クラス・プロンプト・ラーニングとコントラスト・マルチクラス・プロンプト・ラーニングを紹介する。
Generative Class Prompt Learningは、学習可能なクラスプロンプトを持つ数ショットの例に条件付けすることで、クラス埋め込みにおける視覚言語相乗性を改善する。
CoMPLeはこの基盤の上に構築されており、クラス間の分離を促進する対照的な学習コンポーネントを導入している。
論文 参考訳(メタデータ) (2024-09-03T12:34:21Z) - Learning Prompt with Distribution-Based Feature Replay for Few-Shot Class-Incremental Learning [56.29097276129473]
分散型特徴再現(LP-DiF)を用いた学習プロンプト(Learning Prompt)という,シンプルで効果的なフレームワークを提案する。
新しいセッションでは,学習可能なプロンプトが古い知識を忘れないようにするため,擬似機能的リプレイ手法を提案する。
新しいセッションに進むと、古いクラスのディストリビューションと現在のセッションのトレーニングイメージを組み合わせて擬似フィーチャーをサンプリングして、プロンプトを最適化する。
論文 参考訳(メタデータ) (2024-01-03T07:59:17Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - Incremental Object Detection with CLIP [36.478530086163744]
そこで本研究では,CLIPなどの視覚言語モデルを用いて,異なるクラス集合に対するテキスト特徴埋め込みを生成する。
次に、段階的なシナリオをシミュレートするために、早期の学習段階において利用できない新しいクラスを置き換えるために、スーパークラスを使用します。
そこで我々は,この微妙に認識された検出ボックスを擬似アノテーションとしてトレーニングプロセスに組み込むことにより,検出性能をさらに向上させる。
論文 参考訳(メタデータ) (2023-10-13T01:59:39Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Few-Shot Class-Incremental Learning [68.75462849428196]
本稿では,FSCIL問題に焦点をあてる。
FSCIL は CNN モデルに対して,学習済みのクラスを忘れることなく,ラベル付きサンプルのごく少数から新たなクラスを漸進的に学習することを求めている。
我々は,異なるクラスで形成される特徴多様体のトポロジーを学習し,保存するニューラルネットワーク(NG)ネットワークを用いて,知識を表現する。
論文 参考訳(メタデータ) (2020-04-23T03:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。