論文の概要: MCN-CL: Multimodal Cross-Attention Network and Contrastive Learning for Multimodal Emotion Recognition
- arxiv url: http://arxiv.org/abs/2511.10892v1
- Date: Fri, 14 Nov 2025 02:13:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.388336
- Title: MCN-CL: Multimodal Cross-Attention Network and Contrastive Learning for Multimodal Emotion Recognition
- Title(参考訳): MCN-CL:マルチモーダル・クロスアテンション・ネットワークとマルチモーダル感情認識のためのコントラスト学習
- Authors: Feng Li, Ke Wu, Yongwei Li,
- Abstract要約: 本稿では,マルチモーダル感情認識のためのマルチモーダル・クロスアテンション・ネットワークとコントラシブ・ラーニング(MCN-CL)を提案する。
重要な感情的な手がかりを保持しながら、特徴の冗長性を除去するために、トリプルクエリメカニズムとハードネガティブマイニング戦略を使用する。
IEMOCAPとMELDデータセットの実験結果から,提案手法は最先端の手法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 8.732416479560605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal emotion recognition plays a key role in many domains, including mental health monitoring, educational interaction, and human-computer interaction. However, existing methods often face three major challenges: unbalanced category distribution, the complexity of dynamic facial action unit time modeling, and the difficulty of feature fusion due to modal heterogeneity. With the explosive growth of multimodal data in social media scenarios, the need for building an efficient cross-modal fusion framework for emotion recognition is becoming increasingly urgent. To this end, this paper proposes Multimodal Cross-Attention Network and Contrastive Learning (MCN-CL) for multimodal emotion recognition. It uses a triple query mechanism and hard negative mining strategy to remove feature redundancy while preserving important emotional cues, effectively addressing the issues of modal heterogeneity and category imbalance. Experiment results on the IEMOCAP and MELD datasets show that our proposed method outperforms state-of-the-art approaches, with Weighted F1 scores improving by 3.42% and 5.73%, respectively.
- Abstract(参考訳): マルチモーダル感情認識は、メンタルヘルスモニタリング、教育相互作用、人間とコンピュータの相互作用など、多くの領域において重要な役割を担っている。
しかし、既存の手法では、アンバランスなカテゴリー分布、動的顔動作単位時間モデリングの複雑さ、モーダルな不均一性による特徴融合の困難という3つの大きな課題に直面している。
ソーシャルメディアのシナリオにおけるマルチモーダルデータの爆発的増加に伴い、感情認識のための効率的な相互モーダル融合フレームワークを構築する必要性が高まっている。
そこで本研究では,マルチモーダル感情認識のためのマルチモーダル・クロスアテンション・ネットワークとコントラシブ・ラーニング(MCN-CL)を提案する。
重要な感情的手がかりを保ちながら特徴冗長性を取り除くために、三重クエリ機構とハード負のマイニング戦略を使用し、モーダル不均一性やカテゴリー不均衡の問題に効果的に対処する。
IEMOCAPとMELDデータセットの実験結果から,提案手法は最先端手法よりも優れており,重み付きF1スコアはそれぞれ3.42%,5.73%向上した。
関連論文リスト
- MCIHN: A Hybrid Network Model Based on Multi-path Cross-modal Interaction for Multimodal Emotion Recognition [7.944119407791842]
マルチパス・クロスモーダル相互作用(MCIHN)に基づくハイブリッドネットワークモデルを提案する。
対向オートエンコーダ(AAE)は、各モードごとに別々に構築される。
潜伏符号は事前に定義されたクロスモーダルゲート機構モデル(CGMM)に入力される
論文 参考訳(メタデータ) (2025-10-28T16:04:03Z) - GIA-MIC: Multimodal Emotion Recognition with Gated Interactive Attention and Modality-Invariant Learning Constraints [24.242098942377574]
マルチモーダル感情認識(MER)は、視覚、音声、テキスト入力を含むマルチモーダルデータから感情を抽出し、人間とコンピュータの相互作用において重要な役割を果たす。
本稿では,相互の相互作用を通じて感情情報を高めつつ,モダリティ特有の特徴を適応的に抽出する対話型アテンション機構を提案する。
IEMOCAPの実験では、我々の手法は最先端のMERアプローチより優れており、WA 80.7%、UA 81.3%を達成している。
論文 参考訳(メタデータ) (2025-06-01T07:07:02Z) - A Novel Approach to for Multimodal Emotion Recognition : Multimodal semantic information fusion [3.1409950035735914]
本稿では,コントラスト学習と視覚的シーケンス圧縮を統合した新しいマルチモーダル感情認識手法であるDeepMSI-MERを提案する。
2つの公開データセット(IEMOCAPとMELD)の実験結果から、DeepMSI-MERは感情認識の精度と堅牢性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-02-12T17:07:43Z) - WavFusion: Towards wav2vec 2.0 Multimodal Speech Emotion Recognition [2.3367170233149324]
We propose WavFusion, a multimodal speech emotion recognition framework。
WavFusionは、効果的なマルチモーダル融合、モダリティ、差別的表現学習における重要な研究課題に対処する。
本研究は, 精度の高いマルチモーダルSERにおいて, ニュアンスな相互モーダル相互作用を捉え, 識別表現を学習することの重要性を強調した。
論文 参考訳(メタデータ) (2024-12-07T06:43:39Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Deep Imbalanced Learning for Multimodal Emotion Recognition in
Conversations [15.705757672984662]
会話におけるマルチモーダル感情認識(MERC)は、マシンインテリジェンスにとって重要な開発方向である。
MERCのデータの多くは自然に感情カテゴリーの不均衡な分布を示しており、研究者は感情認識に対する不均衡なデータの負の影響を無視している。
生データにおける感情カテゴリーの不均衡分布に対処するクラス境界拡張表現学習(CBERL)モデルを提案する。
我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。
論文 参考訳(メタデータ) (2023-12-11T12:35:17Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。