論文の概要: MCFNet: A Multimodal Collaborative Fusion Network for Fine-Grained Semantic Classification
- arxiv url: http://arxiv.org/abs/2505.23365v1
- Date: Thu, 29 May 2025 11:42:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.836191
- Title: MCFNet: A Multimodal Collaborative Fusion Network for Fine-Grained Semantic Classification
- Title(参考訳): MCFNet:細粒度セマンティック分類のための多モード協調融合ネットワーク
- Authors: Yang Qiao, Xiaoyu Zhong, Xiaofeng Gu, Zhiguo Yu,
- Abstract要約: Multimodal Collaborative Fusion Network (MCFNet) はきめ細かい分類のために設計された。
MCFNetアーキテクチャには、モーダル内特徴表現を改善する正規化統合融合モジュールが組み込まれている。
マルチモーダル決定分類モジュールは、モーダル間相関と非モーダル識別機能を利用する。
- 参考スコア(独自算出の注目度): 2.7936465461948945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal information processing has become increasingly important for enhancing image classification performance. However, the intricate and implicit dependencies across different modalities often hinder conventional methods from effectively capturing fine-grained semantic interactions, thereby limiting their applicability in high-precision classification tasks. To address this issue, we propose a novel Multimodal Collaborative Fusion Network (MCFNet) designed for fine-grained classification. The proposed MCFNet architecture incorporates a regularized integrated fusion module that improves intra-modal feature representation through modality-specific regularization strategies, while facilitating precise semantic alignment via a hybrid attention mechanism. Additionally, we introduce a multimodal decision classification module, which jointly exploits inter-modal correlations and unimodal discriminative features by integrating multiple loss functions within a weighted voting paradigm. Extensive experiments and ablation studies on benchmark datasets demonstrate that the proposed MCFNet framework achieves consistent improvements in classification accuracy, confirming its effectiveness in modeling subtle cross-modal semantics.
- Abstract(参考訳): 画像分類性能を向上させるために,マルチモーダル情報処理がますます重要になっている。
しかし、異なるモダリティをまたいだ複雑な暗黙の依存関係は、しばしば従来の手法が細粒度のセマンティックな相互作用を効果的に捉えることを妨げ、高い精度の分類タスクにおけるそれらの適用性を制限する。
この問題に対処するため,我々は細粒度分類のための新しいマルチモーダル・コラボレーティブ・フュージョン・ネットワーク(MCFNet)を提案する。
提案アーキテクチャでは,モーダリティ特異的な正規化戦略によるモーダル内特徴表現の改善と,ハイブリッドアテンション機構によるセマンティックアライメントの高精度化を実現した,正規化統合融合モジュールが組み込まれている。
さらに、重み付き投票パラダイム内に複数の損失関数を統合することで、モーダル間相関と非モーダル識別機能を共同で活用するマルチモーダル決定分類モジュールを導入する。
ベンチマークデータセットに関する大規模な実験とアブレーション研究により、提案したMCFNetフレームワークは、分類精度を一貫した改善を実現し、微妙なクロスモーダルセマンティクスのモデリングにおけるその有効性を確認した。
関連論文リスト
- Representation Learning with Mutual Influence of Modalities for Node Classification in Multi-Modal Heterogeneous Networks [16.669479456576322]
我々は、HGNN-IMA(Inter-Modal Attention)を用いた異種グラフニューラルネットワーク(Herogeneous Graph Neural Network)という、MMHNにおけるノード分類の新しいモデルを提案する。
本稿では,HGNN-IMA (Herogeneous Graph Neural Network with Inter-Modal Attention) と呼ばれるMMHNのノード分類モデルを提案する。
論文 参考訳(メタデータ) (2025-05-12T02:59:46Z) - DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning [7.947217265041953]
マルチモーダル表現学習は、複数のモーダルをまたいだ共有情報と相補的セマンティック情報の両方をキャプチャすることを目的としている。
マルチモーダル表現をモダリティ・ユニク(異種)とモダリティ・コモン(異種)に分離するために設計された,新しい階層的クロスモーダルアライメントフレームワークであるDecAlignを紹介する。
広く使われている4つのマルチモーダルベンチマーク実験により、DecAlignは既存の最先端手法を一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-03-14T21:47:48Z) - M$^3$amba: CLIP-driven Mamba Model for Multi-modal Remote Sensing Classification [23.322598623627222]
M$3$ambaは、マルチモーダル融合のための新しいエンドツーエンドのCLIP駆動のMambaモデルである。
異なるモダリティの包括的セマンティック理解を実現するために,CLIP駆動型モダリティ固有アダプタを提案する。
実験の結果、M$3$ambaは最先端の手法と比較して平均5.98%の性能向上が見られた。
論文 参考訳(メタデータ) (2025-03-09T05:06:47Z) - MTPareto: A MultiModal Targeted Pareto Framework for Fake News Detection [34.09249215878179]
インターネットマルチメディア情報の信頼性を維持するためには,マルチモーダルフェイクニュース検出が不可欠である。
この問題に対処するため,マルチモーダル融合を最適化する MTPareto フレームワークを提案する。
FakeSVおよびFVCデータセットの実験結果は、提案フレームワークがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-01-12T10:14:29Z) - Category-Adaptive Cross-Modal Semantic Refinement and Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
本稿では,カテゴリ適応型クロスモーダル・セマンティック・リファインメント・アンド・トランスファー(C$2$SRT)フレームワークを提案する。
提案するフレームワークは,2つの相補的モジュール,すなわち,カテゴリ内セマンティックリファインメント(ISR)モジュールと,カテゴリ間セマンティックトランスファー(IST)モジュールから構成される。
OV-MLRベンチマークの実験は、提案されたC$2$SRTフレームワークが現在の最先端アルゴリズムより優れていることを明らかに示している。
論文 参考訳(メタデータ) (2024-12-09T04:00:18Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Deep Multimodal Fusion by Channel Exchanging [87.40768169300898]
本稿では,異なるモードのサブネットワーク間で動的にチャネルを交換するパラメータフリーマルチモーダル融合フレームワークを提案する。
このような交換プロセスの有効性は、畳み込みフィルタを共有してもBN層をモダリティで分離しておくことで保証される。
論文 参考訳(メタデータ) (2020-11-10T09:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。