論文の概要: Unimodal-driven Distillation in Multimodal Emotion Recognition with Dynamic Fusion
- arxiv url: http://arxiv.org/abs/2503.23721v1
- Date: Mon, 31 Mar 2025 04:43:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:37:59.136571
- Title: Unimodal-driven Distillation in Multimodal Emotion Recognition with Dynamic Fusion
- Title(参考訳): ダイナミックフュージョンを用いたマルチモーダル感情認識における単モーダル駆動蒸留
- Authors: Jiagen Li, Rui Yu, Huihao Huang, Huaicheng Yan,
- Abstract要約: 会話におけるマルチモーダル感情認識(MERC)は、テキスト、音声、ビデオ間で感情状態を認識する。
既存の方法は、クロスモーダルな統合のために直接不均一なモーダル融合を強調するが、多モーダル学習における不向きさに悩まされることが多い。
階層的クロスモーダルフュージョンと対話的知識蒸留によるエキスパートの混合を利用した新しいフレームワークであるSUMMERを提案する。
IEMOCAPとMELDの実験では、SUMMERは最先端の手法、特にマイノリティとセマンティックに類似した感情の認識において優れていた。
- 参考スコア(独自算出の注目度): 17.228350098145803
- License:
- Abstract: Multimodal Emotion Recognition in Conversations (MERC) identifies emotional states across text, audio and video, which is essential for intelligent dialogue systems and opinion analysis. Existing methods emphasize heterogeneous modal fusion directly for cross-modal integration, but often suffer from disorientation in multimodal learning due to modal heterogeneity and lack of instructive guidance. In this work, we propose SUMMER, a novel heterogeneous multimodal integration framework leveraging Mixture of Experts with Hierarchical Cross-modal Fusion and Interactive Knowledge Distillation. Key components include a Sparse Dynamic Mixture of Experts (SDMoE) for capturing dynamic token-wise interactions, a Hierarchical Cross-Modal Fusion (HCMF) for effective fusion of heterogeneous modalities, and Interactive Knowledge Distillation (IKD), which uses a pre-trained unimodal teacher to guide multimodal fusion in latent and logit spaces. Experiments on IEMOCAP and MELD show SUMMER outperforms state-of-the-art methods, particularly in recognizing minority and semantically similar emotions.
- Abstract(参考訳): 会話におけるマルチモーダル感情認識(MERC)は、インテリジェントな対話システムや意見分析に欠かせない、テキスト、音声、ビデオの感情状態を識別する。
既存の手法では、クロスモーダルな統合のために直接不均一なモーダル融合を強調するが、モーダルな異質性や指導的指導の欠如により、多モーダル学習において不整合に苦しむことが多い。
本研究では, 階層的クロスモーダルフュージョンと対話的知識蒸留を併用した, エキスパートの混合を利用した新しい異種マルチモーダル統合フレームワークSUMMERを提案する。
鍵となるコンポーネントは、動的トークン・ワイド・インタラクションをキャプチャするSparse Dynamic Mixture of Experts (SDMoE)、不均一なモダリティを効果的に融合するための階層的クロスモーダル・フュージョン (HCMF)、未学習の単調な教師を用いて潜在空間とロジト空間のマルチモーダル・フュージョンを誘導するインタラクティブ・ナレッジ・蒸留 (Interactive Knowledge Distillation (IKD) である。
IEMOCAPとMELDの実験では、SUMMERは最先端の手法、特にマイノリティとセマンティックに類似した感情の認識において優れていた。
関連論文リスト
- WavFusion: Towards wav2vec 2.0 Multimodal Speech Emotion Recognition [2.3367170233149324]
We propose WavFusion, a multimodal speech emotion recognition framework。
WavFusionは、効果的なマルチモーダル融合、モダリティ、差別的表現学習における重要な研究課題に対処する。
本研究は, 精度の高いマルチモーダルSERにおいて, ニュアンスな相互モーダル相互作用を捉え, 識別表現を学習することの重要性を強調した。
論文 参考訳(メタデータ) (2024-12-07T06:43:39Z) - Enhancing Modal Fusion by Alignment and Label Matching for Multimodal Emotion Recognition [16.97833694961584]
Foal-Netは、モダリティ融合の有効性を高めるように設計されている。
これには、オーディオビデオの感情アライメントと、モーダルな感情ラベルマッチングという2つの補助的なタスクが含まれる。
実験の結果,Foal-Netは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-18T11:05:21Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Joyful: Joint Modality Fusion and Graph Contrastive Learning for
Multimodal Emotion Recognition [18.571931295274975]
マルチモーダル感情認識は、複数のモーダルの発話毎に感情を認識することを目的としている。
現在のグラフベースの手法では、対話においてグローバルな文脈特徴と局所的な多様なユニモーダル特徴を同時に表現することができない。
マルチモーダル感情認識のための共同モーダル融合法とグラフコントラスト学習法(Joyful)を提案する。
論文 参考訳(メタデータ) (2023-11-18T08:21:42Z) - MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts [92.76662894585809]
MMOE(Multimodal Mixtures of Experts)と呼ばれるマルチモーダルモデルの拡張手法を導入する。
MMoEは様々な種類のモデルに適用でき、改善できる。
論文 参考訳(メタデータ) (2023-11-16T05:31:21Z) - A Transformer-Based Model With Self-Distillation for Multimodal Emotion
Recognition in Conversations [15.77747948751497]
本稿では, 自己蒸留(SDT)を用いたトランスフォーマーモデルを提案する。
提案モデルでは、モーダル内およびモーダル間変換器を用いて、モーダル内およびモーダル間相互作用をキャプチャする。
本稿では,ハードラベルとソフトラベルの知識をモデルから各モダリティへ伝達するために自己蒸留を導入する。
論文 参考訳(メタデータ) (2023-10-31T14:33:30Z) - Revisiting Disentanglement and Fusion on Modality and Context in
Conversational Multimodal Emotion Recognition [81.2011058113579]
特徴の多様性と会話の文脈化は、特徴の絡み合いと融合の段階において、同時に適切にモデル化されるべきである。
マルチモーダル・コンテキスト統合のためのコントリビューション・アウェア・フュージョン・メカニズム(CFM)とコンテキスト・リフュージョン・メカニズム(CRM)を提案する。
我々のシステムは、新しい最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2023-08-08T18:11:27Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Knowledge-Enhanced Hierarchical Information Correlation Learning for
Multi-Modal Rumor Detection [82.94413676131545]
マルチモーダルなうわさ検出のための知識強化型階層型情報相関学習手法(KhiCL)を提案する。
KhiCLは異質な一様性特徴を共通特徴空間に伝達するために、クロスモーダルな関節辞書を利用する。
画像やテキストから視覚的およびテキスト的実体を抽出し、知識関連推論戦略を設計する。
論文 参考訳(メタデータ) (2023-06-28T06:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。