論文の概要: CFN-ESA: A Cross-Modal Fusion Network with Emotion-Shift Awareness for Dialogue Emotion Recognition
- arxiv url: http://arxiv.org/abs/2307.15432v2
- Date: Sat, 13 Apr 2024 01:05:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 23:57:12.078490
- Title: CFN-ESA: A Cross-Modal Fusion Network with Emotion-Shift Awareness for Dialogue Emotion Recognition
- Title(参考訳): CFN-ESA:対話感情認識のための感情シフト認識型クロスモーダルフュージョンネットワーク
- Authors: Jiang Li, Xiaoping Wang, Yingjian Liu, Zhigang Zeng,
- Abstract要約: 会話における感情認識のための感情シフト認識型クロスモーダルフュージョンネットワーク(CFN-ESA)を提案する。
CFN-ESAは、ユニモーダルエンコーダ(RUME)、クロスモーダルエンコーダ(ACME)、感情シフトモジュール(LESM)からなる。
- 参考スコア(独自算出の注目度): 34.24557248359872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal emotion recognition in conversation (ERC) has garnered growing attention from research communities in various fields. In this paper, we propose a Cross-modal Fusion Network with Emotion-Shift Awareness (CFN-ESA) for ERC. Extant approaches employ each modality equally without distinguishing the amount of emotional information in these modalities, rendering it hard to adequately extract complementary information from multimodal data. To cope with this problem, in CFN-ESA, we treat textual modality as the primary source of emotional information, while visual and acoustic modalities are taken as the secondary sources. Besides, most multimodal ERC models ignore emotion-shift information and overfocus on contextual information, leading to the failure of emotion recognition under emotion-shift scenario. We elaborate an emotion-shift module to address this challenge. CFN-ESA mainly consists of unimodal encoder (RUME), cross-modal encoder (ACME), and emotion-shift module (LESM). RUME is applied to extract conversation-level contextual emotional cues while pulling together data distributions between modalities; ACME is utilized to perform multimodal interaction centered on textual modality; LESM is used to model emotion shift and capture emotion-shift information, thereby guiding the learning of the main task. Experimental results demonstrate that CFN-ESA can effectively promote performance for ERC and remarkably outperform state-of-the-art models.
- Abstract(参考訳): 会話におけるマルチモーダル感情認識(ERC)は,様々な分野の研究コミュニティから注目を集めている。
本稿では,感情シフト認識(CFN-ESA)を用いたERC用クロスモーダルフュージョンネットワークを提案する。
既存のアプローチでは、これらのモダリティの感情情報の量を区別することなく、各モダリティを等しく使い、マルチモーダルデータから補完的な情報を適切に抽出することは困難である。
この問題に対処するため、CFN-ESAでは、視覚的・音響的モダリティを二次情報源としながら、テキストのモダリティを感情情報の主源として扱う。
さらに、ほとんどのマルチモーダルERCモデルは、感情シフト情報を無視し、文脈情報に重きを置いているため、感情シフトシナリオ下での感情認識の失敗につながっている。
この課題に対処するために、感情シフトモジュールを詳しく説明します。
CFN-ESAは主に、ユニモーダルエンコーダ(RUME)、クロスモーダルエンコーダ(ACME)、感情シフトモジュール(LESM)から構成される。
RUMEは、モダリティ間のデータ分布をまとめながら会話レベルの文脈的感情的手がかりを抽出し、ACMEは、テキストのモダリティを中心としたマルチモーダルな相互作用を実行するために、LESMは、感情の変化をモデル化し、感情の変化情報をキャプチャするために、メインタスクの学習を導くために使用される。
実験の結果,CFN-ESAはERCの性能を効果的に向上し,最先端モデルよりも優れていた。
関連論文リスト
- MM-TTS: A Unified Framework for Multimodal, Prompt-Induced Emotional Text-to-Speech Synthesis [70.06396781553191]
MM-TTS(Multimodal Emotional Text-to-Speech System)は、複数のモーダルからの感情的手がかりを利用して、高表現的で感情的に共鳴する音声を生成する統合フレームワークである。
Emotion Prompt Alignment Module (EP-Align),Emotion Embedding-induced TTS (EMI-TTS),Emotion Embedding-induced TTS (Emotion Embedding-induced TTS) の2つの主要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (2024-04-29T03:19:39Z) - Two in One Go: Single-stage Emotion Recognition with Decoupled Subject-context Transformer [78.35816158511523]
単段階の感情認識手法として,DSCT(Decoupled Subject-Context Transformer)を用いる。
広範に使われている文脈認識型感情認識データセットであるCAER-SとEMOTICの単段階フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-04-26T07:30:32Z) - UniMEEC: Towards Unified Multimodal Emotion Recognition and Emotion Cause [18.84743213557238]
会話におけるマルチモーダル感情認識(MERC)とマルチモーダル感情原因ペア抽出(MECPE)は近年注目されている。
我々は、感情と感情の原因の因果関係と相補性を探るため、統一マルチモーダル感情認識・感情因果分析フレームワーク(UniMEEC)を提案する。
UniMEECは、MERCとMECPEのタスクを2つのマスク予測問題として再構成し、感情と原因の相互作用を強化する。
論文 参考訳(メタデータ) (2024-03-30T15:59:17Z) - A Transformer-Based Model With Self-Distillation for Multimodal Emotion
Recognition in Conversations [15.77747948751497]
本稿では, 自己蒸留(SDT)を用いたトランスフォーマーモデルを提案する。
提案モデルでは、モーダル内およびモーダル間変換器を用いて、モーダル内およびモーダル間相互作用をキャプチャする。
本稿では,ハードラベルとソフトラベルの知識をモデルから各モダリティへ伝達するために自己蒸留を導入する。
論文 参考訳(メタデータ) (2023-10-31T14:33:30Z) - EmotionIC: emotional inertia and contagion-driven dependency modeling for emotion recognition in conversation [34.24557248359872]
本稿では,ERCタスクに対する感情的慣性・伝染型依存性モデリング手法(EmotionIC)を提案する。
EmotionICは3つの主要コンポーネント、すなわちIDマスク付きマルチヘッド注意(IMMHA)、対話型Gated Recurrent Unit(DiaGRU)、Skip-chain Conditional Random Field(SkipCRF)から構成されている。
実験結果から,提案手法は4つのベンチマークデータセットにおいて,最先端のモデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-20T13:58:35Z) - M2FNet: Multi-modal Fusion Network for Emotion Recognition in
Conversation [1.3864478040954673]
視覚,音声,テキストのモダリティから感情関連特徴を抽出するマルチモーダルフュージョンネットワーク(M2FNet)を提案する。
マルチヘッドアテンションに基づく融合機構を用いて、入力データの感情に富んだ潜在表現を結合する。
提案する特徴抽出器は,音声および視覚データから感情関連特徴を学習するために,適応的マージンに基づく新しい三重項損失関数を用いて訓練される。
論文 参考訳(メタデータ) (2022-06-05T14:18:58Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Shapes of Emotions: Multimodal Emotion Recognition in Conversations via
Emotion Shifts [2.443125107575822]
会話における感情認識(ERC)は重要かつ活発な研究課題である。
最近の研究は、ERCタスクに複数のモダリティを使用することの利点を示している。
マルチモーダルERCモデルを提案し,感情シフト成分で拡張する。
論文 参考訳(メタデータ) (2021-12-03T14:39:04Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。