論文の概要: Multi-Modal Representation Learning via Semi-Supervised Rate Reduction for Generalized Category Discovery
- arxiv url: http://arxiv.org/abs/2602.19910v1
- Date: Mon, 23 Feb 2026 14:51:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.862057
- Title: Multi-Modal Representation Learning via Semi-Supervised Rate Reduction for Generalized Category Discovery
- Title(参考訳): 一般化カテゴリー発見のための半監督率削減によるマルチモーダル表現学習
- Authors: Wei He, Xianghan Meng, Zhiyuan Huang, Xianbiao Qi, Rong Xiao, Chun-Guang Li,
- Abstract要約: Generalized Category Discovery (GCD)は、既知のカテゴリと未知のカテゴリの両方を識別することを目的としている。
半監督率削減によるGCDのための新規かつ効果的なマルチモーダル表現学習フレームワークを提案する。
提案手法の優れた性能を示す総合的および微粒なベンチマークデータセットについて広範な実験を行った。
- 参考スコア(独自算出の注目度): 15.933337984000346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalized Category Discovery (GCD) aims to identify both known and unknown categories, with only partial labels given for the known categories, posing a challenging open-set recognition problem. State-of-the-art approaches for GCD task are usually built on multi-modality representation learning, which is heavily dependent upon inter-modality alignment. However, few of them cast a proper intra-modality alignment to generate a desired underlying structure of representation distributions. In this paper, we propose a novel and effective multi-modal representation learning framework for GCD via Semi-Supervised Rate Reduction, called SSR$^2$-GCD, to learn cross-modality representations with desired structural properties based on emphasizing to properly align intra-modality relationships. Moreover, to boost knowledge transfer, we integrate prompt candidates by leveraging the inter-modal alignment offered by Vision Language Models. We conduct extensive experiments on generic and fine-grained benchmark datasets demonstrating superior performance of our approach.
- Abstract(参考訳): Generalized Category Discovery (GCD)は、既知のカテゴリと未知のカテゴリの両方を識別することを目的としており、既知のカテゴリに部分的にラベルを付与するだけで、挑戦的なオープンセット認識問題を引き起こす。
GCDタスクの最先端のアプローチは、通常、モーダリティ間のアライメントに大きく依存するマルチモーダリティ表現学習に基づいて構築される。
しかし、それらのうちのいくつかは、表現分布の望ましい基盤構造を生成するために、適切なモダリティ内アライメントを配置した。
本稿では,SSR$^2$-GCD と呼ばれる,GCD のための新規かつ効果的なマルチモーダル表現学習フレームワークを提案する。
さらに、知識伝達を促進するために、視覚言語モデルによって提供されるモーダル間アライメントを活用して、プロンプト候補を統合する。
提案手法の優れた性能を示す総合的および微粒なベンチマークデータセットについて広範な実験を行った。
関連論文リスト
- Toward Effective Multimodal Graph Foundation Model: A Divide-and-Conquer Based Approach [42.970648490410504]
MGFM(Multimodal Graph Foundation Models)は、Multimodal-Attributed Graphs(MAG)におけるリッチなマルチモーダル情報の活用を可能にする。
本稿では,異なる粒度にまたがるモダリティの相互作用とアライメントを分離するために,Divide-and-Conquer戦略を用いた新しいフレームワークPLANETを提案する。
PLANETは,様々なグラフ中心およびマルチモーダル生成タスクにおいて,最先端のベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2026-02-04T01:05:12Z) - Multi-Aspect Cross-modal Quantization for Generative Recommendation [27.92632297542123]
生成レコメンデーション(MACRec)のための多視点クロスモーダル量子化を提案する。
まず、ID学習過程において、競合率を効果的に低減するクロスモーダル量子化を導入する。
また、暗黙のアライメントや明示的なアライメントを含むマルチアスペクトのクロスモーダルアライメントも組み込んでいます。
論文 参考訳(メタデータ) (2025-11-19T04:55:14Z) - DART: Dual Adaptive Refinement Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
Open-Vocabulary Multi-Label Recognition (OV-MLR)は、画像内の複数の見えないオブジェクトカテゴリを識別することを目的としている。
ビジョンランゲージ事前学習モデルは強力なオープン語彙基盤を提供するが、弱い監督下では微粒な局所化に苦慮する。
本稿では,これらの制約を克服するためのDART(Dual Adaptive Refinement Transfer)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-07T17:22:33Z) - Category-Adaptive Cross-Modal Semantic Refinement and Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
本稿では,カテゴリ適応型クロスモーダル・セマンティック・リファインメント・アンド・トランスファー(C$2$SRT)フレームワークを提案する。
提案するフレームワークは,2つの相補的モジュール,すなわち,カテゴリ内セマンティックリファインメント(ISR)モジュールと,カテゴリ間セマンティックトランスファー(IST)モジュールから構成される。
OV-MLRベンチマークの実験は、提案されたC$2$SRTフレームワークが現在の最先端アルゴリズムより優れていることを明らかに示している。
論文 参考訳(メタデータ) (2024-12-09T04:00:18Z) - Textual Knowledge Matters: Cross-Modality Co-Teaching for Generalized Visual Class Discovery [65.16724941038052]
Generalized Category Discovery (GCD)は、既知のカテゴリと未知のカテゴリの両方からラベルのないデータをクラスタすることを目的としている。
現在のGCD法は、新しい視覚カテゴリーを発見する際に、人間の認知過程の多様性知覚性を無視する視覚的手がかりのみに依存している。
マルチモーダルなGCDを実現するための2段階のTextGCDフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:06:50Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。