論文の概要: Multimodal Generalized Category Discovery
- arxiv url: http://arxiv.org/abs/2409.11624v1
- Date: Wed, 18 Sep 2024 01:08:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 19:29:58.487897
- Title: Multimodal Generalized Category Discovery
- Title(参考訳): マルチモーダル一般化カテゴリー発見
- Authors: Yuchang Su, Renping Zhou, Siyu Huang, Xingjian Li, Tianyang Wang, Ziyue Wang, Min Xu,
- Abstract要約: Generalized Category Discovery (GCD)は、入力を既知のカテゴリと新しいカテゴリの両方に分類することを目的としている。
我々はGCDをマルチモーダル設定に拡張し、異なるモーダルからの入力がよりリッチで相補的な情報を提供する。
コントラスト学習と蒸留技術を用いて,異なるモダリティの特徴空間と出力空間を整合させる新しいフレームワークMM-GCDを提案する。
- 参考スコア(独自算出の注目度): 17.066011162576054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalized Category Discovery (GCD) aims to classify inputs into both known and novel categories, a task crucial for open-world scientific discoveries. However, current GCD methods are limited to unimodal data, overlooking the inherently multimodal nature of most real-world data. In this work, we extend GCD to a multimodal setting, where inputs from different modalities provide richer and complementary information. Through theoretical analysis and empirical validation, we identify that the key challenge in multimodal GCD lies in effectively aligning heterogeneous information across modalities. To address this, we propose MM-GCD, a novel framework that aligns both the feature and output spaces of different modalities using contrastive learning and distillation techniques. MM-GCD achieves new state-of-the-art performance on the UPMC-Food101 and N24News datasets, surpassing previous methods by 11.5\% and 4.7\%, respectively.
- Abstract(参考訳): Generalized Category Discovery (GCD)は、インプットを既知のカテゴリと新しいカテゴリの両方に分類することを目的としている。
しかし、現在のGCD法は、ほとんどの実世界のデータの本質的なマルチモーダルな性質を見越して、単調なデータに限られている。
本研究では,GCDをマルチモーダル・セッティングに拡張し,様々なモダリティからの入力がよりリッチで相補的な情報を提供する。
理論的解析と実証的検証を通じて、多モードGCDにおける鍵となる課題は、モーダル間の異種情報を効果的に整合させることにあると同定する。
そこで本稿では,コントラッシブラーニングと蒸留技術を用いて,異なるモードの特徴空間と出力空間を整合させる新しいフレームワークMM-GCDを提案する。
MM-GCD は UPMC-Food101 と N24News のデータセット上で,それぞれ 11.5\% と 4.7\% を達成している。
関連論文リスト
- PracticalDG: Perturbation Distillation on Vision-Language Models for Hybrid Domain Generalization [24.413415998529754]
本稿では,Hybrid Domain Generalization (HDG) と,アルゴリズムのロバスト性を評価するために,様々な分割を構成する新しい指標である$H2$-CVを提案する。
提案手法は,複数のデータセット上での最先端アルゴリズムよりも優れており,特にデータ不足に直面する場合のロバスト性の向上に寄与する。
論文 参考訳(メタデータ) (2024-04-13T13:41:13Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Textual Knowledge Matters: Cross-Modality Co-Teaching for Generalized
Visual Class Discovery [69.91441987063307]
Generalized Category Discovery (GCD)は、既知のカテゴリと未知のカテゴリの両方からラベルのないデータをクラスタすることを目的としている。
現在のGCD法は、新しい視覚カテゴリーを発見する際に、人間の認知過程の多様性知覚性を無視する視覚的手がかりのみに依存している。
マルチモーダルなGCDを実現するための2段階のTextGCDフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:06:50Z) - Generalized Categories Discovery for Long-tailed Recognition [8.69033435074757]
一般化されたクラスディスカバリは、既知のカテゴリと未知のカテゴリの両方をラベルのないデータセットから識別する上で重要な役割を果たす。
我々の研究は、長い尾の一般カテゴリー発見(Long-tailed GCD)パラダイムに焦点をあてて、この断線を橋渡ししようと試みています。
長い尾を持つGCDがもたらす特異な課題に対応するため、2つの戦略正則化に固定された頑健な方法論を提案する。
論文 参考訳(メタデータ) (2023-12-04T09:21:30Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - A Comprehensive Survey on Source-free Domain Adaptation [69.17622123344327]
ソースフリードメイン適応(SFDA)の研究は近年注目を集めている。
SFDAの最近の進歩を包括的に調査し、それらを統一的な分類体系に整理する。
一般的な3つの分類基準で30以上のSFDA法を比較検討した。
論文 参考訳(メタデータ) (2023-02-23T06:32:09Z) - FIXED: Frustratingly Easy Domain Generalization with Mixup [53.782029033068675]
ドメイン一般化(Domain Generalization, DG)は、複数のトレーニングドメインから一般化可能なモデルを学ぶことを目的としている。
一般的な戦略は、Mixupcitezhang 2018mixupのようなメソッドによる一般化のためにトレーニングデータを拡張することである。
我々は、MixupベースのDG、すなわちドメイン不変の特徴mIXup(FIX)の簡易かつ効果的な拡張を提案する。
提案手法は,9つの最先端手法よりも優れており,試験精度の面では,ベースラインの平均6.5%を上回っている。
論文 参考訳(メタデータ) (2022-11-07T09:38:34Z) - Consistency and Diversity induced Human Motion Segmentation [231.36289425663702]
本稿では,CDMS(Consistency and Diversity induced Human Motion)アルゴリズムを提案する。
我々のモデルは、ソースとターゲットデータを異なる多層特徴空間に分解する。
ソースとターゲットデータ間の領域ギャップを低減するために、マルチミューチュアル学習戦略を実行する。
論文 参考訳(メタデータ) (2022-02-10T06:23:56Z) - TCGM: An Information-Theoretic Framework for Semi-Supervised
Multi-Modality Learning [35.76792527025377]
半教師付きマルチモーダル学習のための新しい情報理論アプローチである textbfTotal textbfCorrelation textbfGain textbfMaximization (TCGM) を提案する。
本手法を様々なタスクに適用し,ニュース分類,感情認識,疾患予測など,最先端の成果を達成する。
論文 参考訳(メタデータ) (2020-07-14T03:32:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。