論文の概要: Quality-Controlled Multimodal Emotion Recognition in Conversations with Identity-Based Transfer Learning and MAMBA Fusion
- arxiv url: http://arxiv.org/abs/2511.14969v1
- Date: Tue, 18 Nov 2025 23:24:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.562887
- Title: Quality-Controlled Multimodal Emotion Recognition in Conversations with Identity-Based Transfer Learning and MAMBA Fusion
- Title(参考訳): 同一性に基づく伝達学習とMAMBA融合を用いた会話における品質制御型マルチモーダル感情認識
- Authors: Zanxu Wang, Homayoon Beigi,
- Abstract要約: 話者識別,音声テキストアライメント,顔検出を検証したデータセットの品質制御パイプラインを実装した。
個人識別型埋め込みは、安定した音響的特徴や顔的特徴だけでなく、個人固有の感情表現パターンを捉えていると仮定して、話者と顔の認識からの伝達学習を活用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses data quality issues in multimodal emotion recognition in conversation (MERC) through systematic quality control and multi-stage transfer learning. We implement a quality control pipeline for MELD and IEMOCAP datasets that validates speaker identity, audio-text alignment, and face detection. We leverage transfer learning from speaker and face recognition, assuming that identity-discriminative embeddings capture not only stable acoustic and Facial traits but also person-specific patterns of emotional expression. We employ RecoMadeEasy(R) engines for extracting 512-dimensional speaker and face embeddings, fine-tune MPNet-v2 for emotion-aware text representations, and adapt these features through emotion-specific MLPs trained on unimodal datasets. MAMBA-based trimodal fusion achieves 64.8% accuracy on MELD and 74.3% on IEMOCAP. These results show that combining identity-based audio and visual embeddings with emotion-tuned text representations on a quality-controlled subset of data yields consistent competitive performance for multimodal emotion recognition in conversation and provides a basis for further improvement on challenging, low-frequency emotion classes.
- Abstract(参考訳): 本稿では,Multimodal emotion recognition in conversation (MERC)におけるデータ品質問題について,系統的品質制御と多段階移動学習を通じて考察する。
我々は,MELDおよびIEMOCAPデータセットの品質制御パイプラインを実装し,話者識別,音声テキストアライメント,顔検出を検証した。
個人識別型埋め込みは、安定した音響的特徴や顔的特徴だけでなく、個人固有の感情表現パターンを捉えていると仮定して、話者と顔の認識からの伝達学習を活用する。
我々は512次元の話者と顔の埋め込みを抽出するためにRecoMadeEasy(R)エンジンを使用し、感情を意識したテキスト表現のための細いMPNet-v2を設計し、これらの特徴を非モーダルデータセットで訓練された感情固有のMLPを通して適応する。
MAMBAベースの三元融合は、MELDで64.8%、IEMOCAPで74.3%の精度を達成する。
これらの結果から,個人性に基づく音声と視覚的埋め込みと,データの品質制御されたサブセット上での感情調整されたテキスト表現を組み合わせることで,会話におけるマルチモーダル感情認識における一貫した競合性能が得られ,難易度で低周波な感情クラスに対するさらなる改善の基盤となることが示唆された。
関連論文リスト
- Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。
本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。
HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文 参考訳(メタデータ) (2025-01-06T14:31:25Z) - Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文 参考訳(メタデータ) (2024-06-17T03:01:22Z) - UMETTS: A Unified Framework for Emotional Text-to-Speech Synthesis with Multimodal Prompts [64.02363948840333]
UMETTSは、複数のモーダルからの感情的手がかりを利用して、表現力が高く感情的に共鳴する音声を生成する新しいフレームワークである。
EP-Alignは対照的な学習を用いて、テキスト、オーディオ、視覚的モダリティをまたいだ感情的特徴を整合させ、マルチモーダル情報のコヒーレントな融合を保証する。
EMI-TTSは、アライメントされた感情埋め込みと最先端のTSモデルを統合し、意図した感情を正確に反映した音声を合成する。
論文 参考訳(メタデータ) (2024-04-29T03:19:39Z) - Deep Imbalanced Learning for Multimodal Emotion Recognition in
Conversations [15.705757672984662]
会話におけるマルチモーダル感情認識(MERC)は、マシンインテリジェンスにとって重要な開発方向である。
MERCのデータの多くは自然に感情カテゴリーの不均衡な分布を示しており、研究者は感情認識に対する不均衡なデータの負の影響を無視している。
生データにおける感情カテゴリーの不均衡分布に対処するクラス境界拡張表現学習(CBERL)モデルを提案する。
我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。
論文 参考訳(メタデータ) (2023-12-11T12:35:17Z) - Multi Modal Facial Expression Recognition with Transformer-Based Fusion
Networks and Dynamic Sampling [1.983814021949464]
モーダル・フュージョン・モジュール (MFM) を導入し,Swin Transformer から画像特徴と音声特徴を抽出する。
本モデルはCVPR 2023のABAW(Affective Behavior in-the-wild)課題において評価されている。
論文 参考訳(メタデータ) (2023-03-15T07:40:28Z) - M2FNet: Multi-modal Fusion Network for Emotion Recognition in
Conversation [1.3864478040954673]
視覚,音声,テキストのモダリティから感情関連特徴を抽出するマルチモーダルフュージョンネットワーク(M2FNet)を提案する。
マルチヘッドアテンションに基づく融合機構を用いて、入力データの感情に富んだ潜在表現を結合する。
提案する特徴抽出器は,音声および視覚データから感情関連特徴を学習するために,適応的マージンに基づく新しい三重項損失関数を用いて訓練される。
論文 参考訳(メタデータ) (2022-06-05T14:18:58Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Self-Supervised learning with cross-modal transformers for emotion
recognition [20.973999078271483]
自己教師型学習は、音声や自然言語のようなドメインでラベル付きデータセットが限定されたタスクの改善を示している。
本研究では,マルチモーダルアプリケーションに自己指導型トレーニングを拡張する。
論文 参考訳(メタデータ) (2020-11-20T21:38:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。