論文の概要: SpectralGCD: Spectral Concept Selection and Cross-modal Representation Learning for Generalized Category Discovery
- arxiv url: http://arxiv.org/abs/2602.17395v1
- Date: Thu, 19 Feb 2026 14:18:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.094226
- Title: SpectralGCD: Spectral Concept Selection and Cross-modal Representation Learning for Generalized Category Discovery
- Title(参考訳): スペクトルGCD:一般カテゴリー発見のためのスペクトル概念選択とクロスモーダル表現学習
- Authors: Lorenzo Caselli, Marco Mistretta, Simone Magistri, Andrew D. Bagdanov,
- Abstract要約: Generalized Category Discovery (GCD) は、既知のクラスの小さなラベル付きサブセットを活用しながら、ラベル付きデータの新しいカテゴリを特定することを目的としている。
我々は,CLIPのクロスモーダル画像-概念類似性を統一されたクロスモーダル表現として利用する,GCDに対する効率的かつ効果的なマルチモーダルアプローチであるSpectralGCDを提案する。
SpectralGCDは、計算コストのごく一部で最先端の手法に匹敵するか、はるかに優れている精度を提供する。
- 参考スコア(独自算出の注目度): 14.526295398233747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalized Category Discovery (GCD) aims to identify novel categories in unlabeled data while leveraging a small labeled subset of known classes. Training a parametric classifier solely on image features often leads to overfitting to old classes, and recent multimodal approaches improve performance by incorporating textual information. However, they treat modalities independently and incur high computational cost. We propose SpectralGCD, an efficient and effective multimodal approach to GCD that uses CLIP cross-modal image-concept similarities as a unified cross-modal representation. Each image is expressed as a mixture over semantic concepts from a large task-agnostic dictionary, which anchors learning to explicit semantics and reduces reliance on spurious visual cues. To maintain the semantic quality of representations learned by an efficient student, we introduce Spectral Filtering which exploits a cross-modal covariance matrix over the softmaxed similarities measured by a strong teacher model to automatically retain only relevant concepts from the dictionary. Forward and reverse knowledge distillation from the same teacher ensures that the cross-modal representations of the student remain both semantically sufficient and well-aligned. Across six benchmarks, SpectralGCD delivers accuracy comparable to or significantly superior to state-of-the-art methods at a fraction of the computational cost. The code is publicly available at: https://github.com/miccunifi/SpectralGCD.
- Abstract(参考訳): Generalized Category Discovery (GCD) は、既知のクラスの小さなラベル付きサブセットを活用しながら、ラベル付きデータの新しいカテゴリを特定することを目的としている。
画像の特徴にのみ依存したパラメトリック分類器の訓練は、しばしば古いクラスに過度な適合をもたらす。
しかし、それらは独立してモダリティを扱い、高い計算コストを発生させる。
我々は,CLIPのクロスモーダル画像-概念類似性を統一されたクロスモーダル表現として利用する,GCDに対する効率的かつ効果的なマルチモーダルアプローチであるSpectralGCDを提案する。
それぞれの画像は、大きなタスクに依存しない辞書からのセマンティック概念の混合として表現され、学習を明示的なセマンティクスに固定し、刺激的な視覚的手がかりへの依存を減らす。
効率的な学生が学習した表現のセマンティックな品質を維持するために,強力な教師モデルによって測定されたソフトマックス類似性に対して,クロスモーダルな共分散行列を利用したスペクトルフィルタリングを導入し,辞書から関連する概念のみを自動的に保持する。
同じ教師からのフォワードとリバース知識の蒸留は、学生のクロスモーダルな表現が意味的に十分であり、適切に整合していることを保証する。
6つのベンチマークで、SpectralGCDは計算コストのごく一部で最先端の手法に匹敵する精度を提供する。
コードはhttps://github.com/miccunifi/SpectralGCDで公開されている。
関連論文リスト
- Delving into Spectral Clustering with Vision-Language Representations [27.433418706301477]
本稿では,事前学習された視覚言語モデルにおけるクロスモーダルアライメントを利用したニューラルタンジェントカーネルスペクトルクラスタリングを提案する。
この定式化はクラスタ内の接続を増幅し,クラスタ間のスプリラスな接続を抑えることを示す。
我々の手法は、常に最先端の手法よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2026-02-10T09:36:24Z) - Hierarchical Identity Learning for Unsupervised Visible-Infrared Person Re-Identification [81.3063589622217]
教師なし可視赤外線人物再識別(USVI-ReID)は、ラベルのないクロスモーダルな人物データセットからモダリティ不変の画像特徴を学習することを目的としている。
論文 参考訳(メタデータ) (2025-09-15T05:10:43Z) - The Demon is in Ambiguity: Revisiting Situation Recognition with Single Positive Multi-Label Learning [30.485929387603463]
コンテキスト認識は、画像から構造化された意味的要約を抽出することを目的とした、コンピュータビジョンの基本的なタスクである。
既存の方法では,動詞の分類を単一ラベル問題として扱うが,この定式化は視覚事象認識における固有の曖昧さに対処できないという包括的分析を通して示す。
第一に,動詞分類が本質的には多言語の問題であることを示す経験的分析を通して,動詞カテゴリー間のユビキタスな意味的重複から,その特徴を明らかにする。
第二に、複数ラベル付き大規模データセットの完全注釈付けの非現実性を考えると、動詞分類を1つの正のマルチラベル学習として再構成することを提案する。
論文 参考訳(メタデータ) (2025-08-29T17:51:55Z) - Semantic-Aware Representation Learning via Conditional Transport for Multi-Label Image Classification [8.864897133482907]
本稿では,マルチラベル画像分類のための条件付きトランスポートを用いたセマンティック認識表現学習という新しい手法を提案する。
提案手法では,意味的関連性と相互作用を強調することによって,識別的ラベル固有の特徴を抽出する意味的関連性学習モジュールを提案する。
2つの広く使われているベンチマークデータセットであるVOC2007とMS-COCOの実験は、SCTの有効性を検証し、既存の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2025-07-20T11:15:24Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Self-supervised Contrastive Learning for Cross-domain Hyperspectral
Image Representation [26.610588734000316]
本稿では,アノテートが本質的に困難であるハイパースペクトル画像に適した自己教師型学習フレームワークを提案する。
提案するフレームワークアーキテクチャは、クロスドメインCNNを利用して、異なるハイパースペクトル画像から表現を学習する。
実験結果は、スクラッチや他の移動学習法から学習したモデルに対して、提案した自己教師型表現の利点を示す。
論文 参考訳(メタデータ) (2022-02-08T16:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。