論文の概要: Class Similarity-Based Multimodal Classification under Heterogeneous Category Sets
- arxiv url: http://arxiv.org/abs/2506.09745v1
- Date: Wed, 11 Jun 2025 13:49:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.021607
- Title: Class Similarity-Based Multimodal Classification under Heterogeneous Category Sets
- Title(参考訳): 不均一カテゴリー集合によるクラス類似性に基づくマルチモーダル分類
- Authors: Yangrui Zhu, Junhua Bao, Yipan Wei, Yapeng Li, Bo Du,
- Abstract要約: 我々は,MMHCL (Multi-Modal Heterogeneous Category-set Learning) という実用的な設定を提案する。
提案手法は,複数のベンチマークデータセットにおいて,既存の最先端手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 22.03742325512164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing multimodal methods typically assume that different modalities share the same category set. However, in real-world applications, the category distributions in multimodal data exhibit inconsistencies, which can hinder the model's ability to effectively utilize cross-modal information for recognizing all categories. In this work, we propose the practical setting termed Multi-Modal Heterogeneous Category-set Learning (MMHCL), where models are trained in heterogeneous category sets of multi-modal data and aim to recognize complete classes set of all modalities during test. To effectively address this task, we propose a Class Similarity-based Cross-modal Fusion model (CSCF). Specifically, CSCF aligns modality-specific features to a shared semantic space to enable knowledge transfer between seen and unseen classes. It then selects the most discriminative modality for decision fusion through uncertainty estimation. Finally, it integrates cross-modal information based on class similarity, where the auxiliary modality refines the prediction of the dominant one. Experimental results show that our method significantly outperforms existing state-of-the-art (SOTA) approaches on multiple benchmark datasets, effectively addressing the MMHCL task.
- Abstract(参考訳): 既存のマルチモーダル法は、通常、異なるモダリティが同じ圏集合を共有すると仮定する。
しかし、実世界のアプリケーションでは、マルチモーダルデータのカテゴリ分布は矛盾を示しており、すべてのカテゴリを認識するためにクロスモーダル情報を効果的に活用する能力を阻害する可能性がある。
そこで本研究では,マルチモーダルデータの不均一なカテゴリセットでモデルを訓練し,テスト中のすべてのモーダルの完全なクラスセットを認識することを目的とした,MMHCL(Multi-Modal Heterogeneous Category-set Learning)という実用的な設定を提案する。
この課題を効果的に解決するために,クラス類似性に基づくクロスモーダルフュージョンモデル(CSCF)を提案する。
具体的には、CSCFは、モダリティ固有の特徴を共有意味空間に整合させ、目に見えるクラスと目に見えないクラス間の知識伝達を可能にする。
そして、不確実性推定により、決定融合に対する最も差別的なモダリティを選択する。
最後に、クラス類似性に基づくクロスモーダル情報を統合し、補助モーダルは支配的なモーダルの予測を洗練させる。
実験結果から,本手法は複数のベンチマークデータセットに対する既存のSOTAアプローチよりも優れており,MMHCLタスクに効果的に対処できることが示唆された。
関連論文リスト
- MCFNet: A Multimodal Collaborative Fusion Network for Fine-Grained Semantic Classification [2.7936465461948945]
Multimodal Collaborative Fusion Network (MCFNet) はきめ細かい分類のために設計された。
MCFNetアーキテクチャには、モーダル内特徴表現を改善する正規化統合融合モジュールが組み込まれている。
マルチモーダル決定分類モジュールは、モーダル間相関と非モーダル識別機能を利用する。
論文 参考訳(メタデータ) (2025-05-29T11:42:57Z) - Generative Modeling of Class Probability for Multi-Modal Representation Learning [7.5696616045063845]
マルチモーダル理解は、モデルが異なるモーダルから入力を共同で解釈できるようにすることによって、人工知能において重要な役割を担っている。
マルチモーダル表現学習にクラス確率分布を利用する新しいクラスアンカーアライメント手法を提案する。
本手法は,クラスアンカーを各モードのクラス確率分布の生成と調整のプロンプトとして符号化する。
論文 参考訳(メタデータ) (2025-03-21T01:17:44Z) - Partially Supervised Unpaired Multi-Modal Learning for Label-Efficient Medical Image Segmentation [53.723234136550055]
我々は、新しい学習パラダイムを部分教師付き無ペア型マルチモーダルラーニング(PSUMML)と呼ぶ。
そこで我々は,DEST (Ensembled Self-Training) フレームワークを用いた新しい部分クラス適応法を提案する。
我々のフレームワークは、部分的にラベル付けされていないマルチモーダルデータを用いて学習するためのモダリティ特定正規化層を持つコンパクトなセグメンテーションネットワークで構成されている。
論文 参考訳(メタデータ) (2025-03-07T07:22:42Z) - Category-Adaptive Cross-Modal Semantic Refinement and Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
本稿では,カテゴリ適応型クロスモーダル・セマンティック・リファインメント・アンド・トランスファー(C$2$SRT)フレームワークを提案する。
提案するフレームワークは,2つの相補的モジュール,すなわち,カテゴリ内セマンティックリファインメント(ISR)モジュールと,カテゴリ間セマンティックトランスファー(IST)モジュールから構成される。
OV-MLRベンチマークの実験は、提案されたC$2$SRTフレームワークが現在の最先端アルゴリズムより優れていることを明らかに示している。
論文 参考訳(メタデータ) (2024-12-09T04:00:18Z) - Convolutional autoencoder-based multimodal one-class classification [80.52334952912808]
1クラス分類は、単一のクラスからのデータを用いた学習のアプローチを指す。
マルチモーダルデータに適した深層学習一クラス分類法を提案する。
論文 参考訳(メタデータ) (2023-09-25T12:31:18Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Anomaly Detection using Ensemble Classification and Evidence Theory [62.997667081978825]
本稿では,アンサンブル分類とエビデンス理論を用いた新しい検出手法を提案する。
固体アンサンブル分類器を構築するためのプール選択戦略が提示される。
我々は異常検出手法の不確実性を利用する。
論文 参考訳(メタデータ) (2022-12-23T00:50:41Z) - An Evolutionary Approach for Creating of Diverse Classifier Ensembles [11.540822622379176]
CIF-Eと呼ばれる4段階のプロトコルに基づく分類器の選択と融合のためのフレームワークを提案する。
我々は,提案したCIF-Eプロトコルに従って,24種類のアンサンブルアプローチを実装し,評価した。
実験により、提案された進化的アプローチは、多くのよく知られたUCIデータセットにおいて最先端の文献的アプローチより優れていることが示された。
論文 参考訳(メタデータ) (2022-08-23T14:23:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。