Fugu-MT 論文翻訳(概要): Textual Knowledge Matters: Cross-Modality Co-Teaching for Generalized Visual Class Discovery

論文の概要: Textual Knowledge Matters: Cross-Modality Co-Teaching for Generalized Visual Class Discovery

arxiv url: http://arxiv.org/abs/2403.07369v2
Date: Thu, 05 Dec 2024 17:03:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-06 20:43:01.485638
Title: Textual Knowledge Matters: Cross-Modality Co-Teaching for Generalized Visual Class Discovery
Title（参考訳）: テキストの知識: 一般化されたビジュアルクラス発見のためのクロスモーダル・コトレーニング
Authors: Haiyang Zheng, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong,
Abstract要約: Generalized Category Discovery (GCD)は、既知のカテゴリと未知のカテゴリの両方からラベルのないデータをクラスタすることを目的としている。現在のGCD法は、新しい視覚カテゴリーを発見する際に、人間の認知過程の多様性知覚性を無視する視覚的手がかりのみに依存している。マルチモーダルなGCDを実現するための2段階のTextGCDフレームワークを提案する。
参考スコア（独自算出の注目度）: 65.16724941038052
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we study the problem of Generalized Category Discovery (GCD), which aims to cluster unlabeled data from both known and unknown categories using the knowledge of labeled data from known categories. Current GCD methods rely on only visual cues, which however neglect the multi-modality perceptive nature of human cognitive processes in discovering novel visual categories. To address this, we propose a two-phase TextGCD framework to accomplish multi-modality GCD by exploiting powerful Visual-Language Models. TextGCD mainly includes a retrieval-based text generation (RTG) phase and a cross-modality co-teaching (CCT) phase. First, RTG constructs a visual lexicon using category tags from diverse datasets and attributes from Large Language Models, generating descriptive texts for images in a retrieval manner. Second, CCT leverages disparities between textual and visual modalities to foster mutual learning, thereby enhancing visual GCD. In addition, we design an adaptive class aligning strategy to ensure the alignment of category perceptions between modalities as well as a soft-voting mechanism to integrate multi-modality cues. Experiments on eight datasets show the large superiority of our approach over state-of-the-art methods. Notably, our approach outperforms the best competitor, by 7.7% and 10.8% in All accuracy on ImageNet-1k and CUB, respectively.
Abstract（参考訳）: 本稿では、既知のカテゴリと未知のカテゴリの両方からラベル付きデータをクラスタリングすることを目的とした、一般化カテゴリー発見(GCD)の問題について、既知のカテゴリからのラベル付きデータの知識を用いて検討する。現在のGCD法は視覚的手がかりのみに依存しているが、新しい視覚カテゴリーを発見する際に、人間の認知過程の多様性知覚性を無視している。そこで本稿では,マルチモーダルなGCDを実現するための2段階のTextGCDフレームワークを提案する。 TextGCDは主に検索ベースのテキスト生成(RTG)フェーズと、CCTフェーズを含む。まず、RTGは、様々なデータセットと大規模言語モデルからの属性のカテゴリタグを用いて視覚辞書を構築し、検索方法で画像の記述テキストを生成する。第二に、CCTはテキストと視覚の相違を利用して相互学習を育み、視覚的GCDを向上させる。さらに,モーダル間のカテゴリー認識の整合性を確保するための適応型クラス整合戦略を設計し,マルチモーダリティ・キューを統合するためのソフト投票機構を設計する。 8つのデータセットの実験は、最先端の手法に対する我々のアプローチの大きな優位性を示している。特に、私たちのアプローチは、ImageNet-1kとCUBの精度でそれぞれ7.7%と10.8%という、最も優れた競争相手よりも優れています。

関連論文リスト

SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文参考訳（メタデータ） (2025-04-24T09:31:08Z)
Learning Semantic-Aware Representation in Visual-Language Models for Multi-Label Recognition with Partial Labels [19.740929527669483]
部分ラベル付きマルチラベル認識(MLR-PL)はコンピュータビジョンにおける実用的な課題である。セマンティックデカップリングモジュールとカテゴリ固有のプロンプト最適化手法をCLIPベースのフレームワークで導入する。提案手法は,CLIPベースのベースライン方式と比較して,情報と異なるカテゴリを効果的に分離し,優れた性能を実現する。
論文参考訳（メタデータ） (2024-12-14T14:31:36Z)
A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文参考訳（メタデータ） (2024-11-19T16:20:27Z)
Contextuality Helps Representation Learning for Generalized Category Discovery [5.885208652383516]
本稿では、文脈性の概念を活用することにより、一般化カテゴリー発見(GCD)への新たなアプローチを提案する。我々のモデルでは,コントラスト学習に最も近いコンテキストが使用されるインスタンスレベルと,コントラスト学習を利用するクラスタレベルという,2つのコンテキストレベルを統合している。文脈情報の統合は、特徴学習を効果的に改善し、その結果、すべてのカテゴリの分類精度が向上する。
論文参考訳（メタデータ） (2024-07-29T07:30:41Z)
Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery [50.564146730579424]
テキスト埋め込み合成器(TES)を提案する。提案手法は,CLIPのマルチモーダルポテンシャルを解放し,すべてのGCDベンチマークにおいて,ベースライン手法よりも大きなマージンで性能を向上する。
論文参考訳（メタデータ） (2024-03-15T02:40:13Z)
Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2023-10-30T00:32:47Z)
CLIP-GCD: Simple Language Guided Generalized Category Discovery [21.778676607030253]
一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
論文参考訳（メタデータ） (2023-05-17T17:55:33Z)
Dynamic Conceptional Contrastive Learning for Generalized Category Discovery [76.82327473338734]
Generalized category discovery (GCD) は、部分的にラベル付けされたデータを自動でクラスタリングすることを目的としている。ラベル付きデータには、ラベル付きデータの既知のカテゴリだけでなく、新しいカテゴリのインスタンスも含まれている。 GCDの効果的な方法の1つは、ラベルなしデータの識別表現を学習するために自己教師付き学習を適用することである。本稿では,クラスタリングの精度を効果的に向上する動的概念コントラスト学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-30T14:04:39Z)
Open-world Semantic Segmentation via Contrasting and Clustering Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文参考訳（メタデータ） (2022-07-18T09:20:04Z)
Semantic Representation and Dependency Learning for Multi-Label Image Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文参考訳（メタデータ） (2022-04-08T00:55:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。