論文の概要: Calibrating Multimodal Consensus for Emotion Recognition
- arxiv url: http://arxiv.org/abs/2510.20256v1
- Date: Thu, 23 Oct 2025 06:25:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.449235
- Title: Calibrating Multimodal Consensus for Emotion Recognition
- Title(参考訳): 感情認識のためのマルチモーダル・コンセンサスの校正
- Authors: Guowei Zhong, Junjie Li, Huaiyu Zhu, Ruohong Huan, Yun Pan,
- Abstract要約: CMC(Calibrated Multimodal Consensus)と呼ばれるモデルを提案する。
CMCは単調なラベルを生成し、自己監督的な方法で単調な事前訓練を可能にする。
その後、MCR(Multimodal Consensus Router)とPFM(Multimodal Fine-free Fusion Module)を採用している。
- 参考スコア(独自算出の注目度): 12.579333289614693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Multimodal Emotion Recognition (MER) has made substantial progress. Nevertheless, most existing approaches neglect the semantic inconsistencies that may arise across modalities, such as conflicting emotional cues between text and visual inputs. Besides, current methods are often dominated by the text modality due to its strong representational capacity, which can compromise recognition accuracy. To address these challenges, we propose a model termed Calibrated Multimodal Consensus (CMC). CMC introduces a Pseudo Label Generation Module (PLGM) to produce pseudo unimodal labels, enabling unimodal pretraining in a self-supervised fashion. It then employs a Parameter-free Fusion Module (PFM) and a Multimodal Consensus Router (MCR) for multimodal finetuning, thereby mitigating text dominance and guiding the fusion process toward a more reliable consensus. Experimental results demonstrate that CMC achieves performance on par with or superior to state-of-the-art methods across four datasets, CH-SIMS, CH-SIMS v2, CMU-MOSI, and CMU-MOSEI, and exhibits notable advantages in scenarios with semantic inconsistencies on CH-SIMS and CH-SIMS v2. The implementation of this work is publicly accessible at https://github.com/gw-zhong/CMC.
- Abstract(参考訳): 近年,MER(Multimodal Emotion Recognition)は大きな進歩を遂げている。
それにもかかわらず、既存のほとんどのアプローチは、テキストと視覚入力の間の感情的な手がかりの矛盾など、モダリティにまたがる意味上の矛盾を無視している。
さらに、現在の手法は、認識精度を損なう可能性のある強力な表現能力のために、しばしばテキストモダリティによって支配される。
これらの課題に対処するため,CMC (Calibrated Multimodal Consensus) と呼ばれるモデルを提案する。
CMCはPseudo Label Generation Module (PLGM)を導入し、擬似単調なラベルを生成する。
その後、パラメタフリーフュージョンモジュール (PFM) とマルチモーダル微調整のためのマルチモーダル・コンセンサス・ルータ (MCR) を用いて、テキストの優位性を緩和し、融合プロセスをより信頼性の高いコンセンサスに向けて導く。
実験の結果,CMCはCH-SIMS,CH-SIMS v2,CMU-MOSI,CMU-MOSEIの4つのデータセットにまたがる最先端手法と同等以上の性能を示し,CH-SIMSとCH-SIMS v2のセマンティック不整合を伴うシナリオにおいて顕著な優位性を示した。
この作業の実装はhttps://github.com/gw-zhong/CMC.comで公開されている。
関連論文リスト
- Towards Robust Multimodal Emotion Recognition under Missing Modalities and Distribution Shifts [8.259321830040204]
本稿では,モダリティの欠如とOF-Distribution(OOD)データの両方を同時に扱うための新しいフレームワークを提案する。
CIDerはMSSD(Model-Specific Self-Distillation)モジュールとMACI(Model-Agnostic Causal Inference)モジュールという2つの重要なコンポーネントを統合している。
実験の結果、CIDerはRMFMとOODの両方のシナリオでロバストな性能を示し、パラメータは少なく、最先端の手法に比べて訓練が速い。
論文 参考訳(メタデータ) (2025-06-12T07:58:17Z) - BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。
統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。
合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-04T08:04:58Z) - Consistency-aware Fake Videos Detection on Short Video Platforms [4.291448222735821]
本稿では,ショートビデオプラットフォーム上でのフェイクニュースの検出に焦点をあてる。
既存のアプローチは通常、分類層を適用する前に生のビデオデータとメタデータの入力を組み合わせる。
この知見に触発された本研究では,クロスモーダルな矛盾を明示的に識別し,活用する新たな検出パラダイムを提案する。
論文 参考訳(メタデータ) (2025-04-30T10:26:04Z) - CMATH: Cross-Modality Augmented Transformer with Hierarchical Variational Distillation for Multimodal Emotion Recognition in Conversation [8.874033487493913]
会話におけるマルチモーダル感情認識は、会話発話中の感情を正確に識別することを目的としている。
CMATHと呼ばれる2つの主要成分から構成される階層的変分蒸留を用いたクロスモダリティ拡張変圧器を提案する。
IEMOCAPとMELDデータセットの実験により、提案したモデルが従来の最先端ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T09:23:02Z) - Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Multimodal Prompt Transformer with Hybrid Contrastive Learning for
Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。
表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。
特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。
MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文 参考訳(メタデータ) (2023-10-04T13:54:46Z) - Large AI Model Empowered Multimodal Semantic Communications [48.73159237649128]
本稿では,Large AI Model-based Multimodal SC (LAMMSC) フレームワークを提案する。
まず、条件付きマルチモーダルアライメント(MMA)を提案し、マルチモーダルデータと非モーダルデータ間の変換を可能にする。
次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案し、ユーザがパーソナライズされたセマンティック抽出やリカバリを行うことができる。
最後に,CGE(Generative Adversarial Network-based Channel Estimation)を用いて,無線チャネルの状態情報を推定する。
論文 参考訳(メタデータ) (2023-09-03T19:24:34Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。