論文の概要: VLM-NCD:Novel Class Discovery with Vision-Based Large Language Models
- arxiv url: http://arxiv.org/abs/2512.10262v1
- Date: Thu, 11 Dec 2025 03:53:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.183628
- Title: VLM-NCD:Novel Class Discovery with Vision-Based Large Language Models
- Title(参考訳): VLM-NCD:視覚に基づく大規模言語モデルを用いた高級クラス発見
- Authors: Yuetong Su, Baoguo Wei, Xinyu Wang, Xu Li, Lixin Li,
- Abstract要約: 新たなクラスディスカバリは、既知のクラスの事前の知識を活用して、問題のないデータから未知のクラスを分類し、発見することを目的としている。
本稿では,視覚的テクスチャの意味論とプロトタイプによるクラスタリングを融合させることにより,このボトルネックを解消するマルチモーダルフレームワークを提案する。
本手法は,NCD文献で初となる長尾分布に対する特異なレジリエンスを示す。
- 参考スコア(独自算出の注目度): 8.280120179892885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Novel Class Discovery aims to utilise prior knowledge of known classes to classify and discover unknown classes from unlabelled data. Existing NCD methods for images primarily rely on visual features, which suffer from limitations such as insufficient feature discriminability and the long-tail distribution of data. We propose LLM-NCD, a multimodal framework that breaks this bottleneck by fusing visual-textual semantics and prototype guided clustering. Our key innovation lies in modelling cluster centres and semantic prototypes of known classes by jointly optimising known class image and text features, and a dualphase discovery mechanism that dynamically separates known or novel samples via semantic affinity thresholds and adaptive clustering. Experiments on the CIFAR-100 dataset show that compared to the current methods, this method achieves up to 25.3% improvement in accuracy for unknown classes. Notably, our method shows unique resilience to long tail distributions, a first in NCD literature.
- Abstract(参考訳): 新たなクラスディスカバリは、既知のクラスの事前の知識を活用して、問題のないデータから未知のクラスを分類し、発見することを目的としている。
既存の画像のNCD法は主に視覚的特徴に依存しており、特徴識別能力の不足やデータの長期分布といった制限に悩まされている。
LLM-NCDは,視覚的テクスト意味論とプロトタイプによるクラスタリングを融合させることにより,このボトルネックを解消するマルチモーダルフレームワークである。
我々の重要な革新は、既知のクラスイメージとテキスト特徴を協調的に最適化することで既知のクラスのクラスタセンターとセマンティックプロトタイプをモデル化することであり、セマンティックアフィニティしきい値と適応クラスタリングによって既知のまたは新しいサンプルを動的に分離する二重位相発見機構である。
CIFAR-100データセットの実験では、現在の手法と比較して、未知のクラスに対して最大25.3%の精度向上が達成されている。
特に,本手法は,NCD文献で初となる,長い尾の分布に対する特異なレジリエンスを示す。
関連論文リスト
- No Labels Needed: Zero-Shot Image Classification with Collaborative Self-Learning [0.0]
視覚言語モデル(VLM)と、事前学習された視覚モデルを用いた伝達学習は、この問題に対処するための有望な手法として現れる。
本稿では,VLMと事前学習した視覚モデルを組み合わせたゼロショット画像分類フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T12:54:52Z) - Intra-view and Inter-view Correlation Guided Multi-view Novel Class Discovery [52.616615506638205]
新たなクラス発見 (NCD) は、解離した既知のクラスからの知識を活用することで、新しいクラスをクラスタリングすることを目的としている。
Intra-view and Inter-view correlation Guided Multi-view Novel Class Discovery (IICMVNCD) という新しいフレームワークを提案する。
IICMVNCDはマルチビュー環境でNCDを探索する最初の試みである。
論文 参考訳(メタデータ) (2025-07-16T08:42:52Z) - FeNeC: Enhancing Continual Learning via Feature Clustering with Neighbor- or Logit-Based Classification [6.720605329045581]
FeNeC(Feature Neighborhood)とFeNeC-Log(FeNeC-Log)を導入する。
提案手法は,クラスタリングによって既存の概念を一般化し,クラス内変動を増大させる。
タスクの同一性が不明なシナリオでは,2つのFeNeC変種が競合性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-03-18T14:42:38Z) - Queryable Prototype Multiple Instance Learning with Vision-Language Models for Incremental Whole Slide Image Classification [10.667645628712542]
ホイルスライド画像(WSI)分類は臨床病理学に非常に重要な応用例である。
本稿では, 逐次WSI分類に特化して設計された, Queryable Prototype Multiple Instance Learning (QPMIL-VL) を用いた視覚言語ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T14:49:34Z) - High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。
我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。
難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文 参考訳(メタデータ) (2024-08-22T15:10:20Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Unified Multi-View Orthonormal Non-Negative Graph Based Clustering
Framework [74.25493157757943]
我々は,非負の特徴特性を活用し,多視点情報を統合された共同学習フレームワークに組み込む,新しいクラスタリングモデルを定式化する。
また、深層機能に基づいたクラスタリングデータに対するマルチモデル非負グラフベースのアプローチを初めて検討する。
論文 参考訳(メタデータ) (2022-11-03T08:18:27Z) - Automatically Discovering Novel Visual Categories with Self-supervised
Prototype Learning [68.63910949916209]
本稿では,大規模な画像収集において未知のカテゴリを識別することを目的とした,新しいカテゴリ発見(NCD)の課題に取り組む。
本稿では,プロトタイプ表現学習とプロトタイプ自己学習という,2つの主要な段階からなる適応型プロトタイプ学習手法を提案する。
本研究では,4つのベンチマークデータセットについて広範な実験を行い,提案手法の有効性とロバスト性を示す。
論文 参考訳(メタデータ) (2022-08-01T16:34:33Z) - Novel Class Discovery in Semantic Segmentation [104.30729847367104]
セマンティックにおける新しいクラス発見(NCDSS)について紹介する。
ラベル付き非結合クラスの集合から事前の知識を与えられた新しいクラスを含むラベル付きイメージのセグメンテーションを目的としている。
NCDSSでは、オブジェクトと背景を区別し、画像内の複数のクラスの存在を処理する必要があります。
本稿では,エントロピーに基づく不確実性モデリングと自己学習(EUMS)フレームワークを提案し,ノイズの多い擬似ラベルを克服する。
論文 参考訳(メタデータ) (2021-12-03T13:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。