論文の概要: M3HG: Multimodal, Multi-scale, and Multi-type Node Heterogeneous Graph for Emotion Cause Triplet Extraction in Conversations
- arxiv url: http://arxiv.org/abs/2508.18740v1
- Date: Tue, 26 Aug 2025 07:14:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.719277
- Title: M3HG: Multimodal, Multi-scale, and Multi-type Node Heterogeneous Graph for Emotion Cause Triplet Extraction in Conversations
- Title(参考訳): M3HG:会話における感情原因トリプルト抽出のためのマルチモーダル,マルチスケール,マルチタイプノード不均一グラフ
- Authors: Qiao Liang, Ying Shen, Tiantian Chen, Lin Zhang,
- Abstract要約: マルチモーダル会話(MECTEC)における感情原因トリプレット抽出は近年,ソーシャルメディア分析において注目されている。
我々は、56のテレビシリーズから989の会話を広範囲の対話コンテキストに分散した最初のマルチモーダル・マルチセクセリオMECTECデータセットであるMECADを紹介した。
本稿では,感情的・因果的文脈を明示的に捉え,発話間レベルと発話内レベルの両方で文脈情報を効果的に融合する新しいモデルであるM3HGを提案する。
- 参考スコア(独自算出の注目度): 12.644344667523322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotion Cause Triplet Extraction in Multimodal Conversations (MECTEC) has recently gained significant attention in social media analysis, aiming to extract emotion utterances, cause utterances, and emotion categories simultaneously. However, the scarcity of related datasets, with only one published dataset featuring highly uniform dialogue scenarios, hinders model development in this field. To address this, we introduce MECAD, the first multimodal, multi-scenario MECTEC dataset, comprising 989 conversations from 56 TV series spanning a wide range of dialogue contexts. In addition, existing MECTEC methods fail to explicitly model emotional and causal contexts and neglect the fusion of semantic information at different levels, leading to performance degradation. In this paper, we propose M3HG, a novel model that explicitly captures emotional and causal contexts and effectively fuses contextual information at both inter- and intra-utterance levels via a multimodal heterogeneous graph. Extensive experiments demonstrate the effectiveness of M3HG compared with existing state-of-the-art methods. The codes and dataset are available at https://github.com/redifinition/M3HG.
- Abstract(参考訳): マルチモーダル会話における感情原因トリプルト抽出(MECTEC)は近年,感情の発話,発話の原因,感情のカテゴリを同時に抽出することを目的として,ソーシャルメディア分析において大きな注目を集めている。
しかし、非常に均一な対話シナリオを特徴とするデータセットは1つしか公開されていないため、関連するデータセットの不足は、この分野におけるモデル開発の妨げとなる。
そこで本研究では,56のテレビシリーズから989の会話を幅広い対話コンテキストに分散した,最初のマルチモーダル・マルチセクセリオMECTECデータセットであるMECADを紹介する。
さらに、既存のMECTECメソッドは感情や因果関係を明示的にモデル化できず、異なるレベルでの意味情報の融合を無視し、性能劣化を引き起こす。
本稿では,感情的・因果的文脈を明示的に捉え,マルチモーダルなヘテロジニアスグラフを用いて発話間レベルと発話内レベルの文脈情報を効果的に融合する新しいモデルであるM3HGを提案する。
大規模な実験は、既存の最先端手法と比較してM3HGの有効性を示す。
コードとデータセットはhttps://github.com/redifinition/M3HGで公開されている。
関連論文リスト
- Effective Context Modeling Framework for Emotion Recognition in Conversations [2.7175580940471913]
会話における感情認識(英語: Emotion Recognition in Conversations, ERC)は、会話中の各発話における話者による感情のより深い理解を促進する。
最近のグラフニューラルネットワーク(GNN)は、データ関係をキャプチャする上で、その強みを実証している。
本稿では,会話中の文脈情報をキャプチャする新しいGNNベースのフレームワークであるConxGNNを提案する。
論文 参考訳(メタデータ) (2024-12-21T02:22:06Z) - When Words Smile: Generating Diverse Emotional Facial Expressions from Text [72.19705878257204]
本稿では,感情動態に着目したエンドツーエンドのテキスト対表現モデルを提案する。
我々のモデルは連続的な潜伏空間における表情の変動を学習し、多様な、流動的で、感情的に一貫性のある表現を生成する。
論文 参考訳(メタデータ) (2024-12-03T15:39:05Z) - Emotion and Intent Joint Understanding in Multimodal Conversation: A Benchmarking Dataset [74.74686464187474]
Emotion and Intent Joint Understanding in Multimodal Conversation (MC-EIU)は、マルチモーダルな会話履歴に現れる意味情報をデコードすることを目的としている。
MC-EIUは多くのヒューマン・コンピュータ・インタフェースのテクノロジーを実現している。
MC-EIUデータセットは,7つの感情カテゴリー,9つの意図カテゴリ,3つのモダリティ,すなわちテキスト,音響,視覚的内容,および英語とマンダリンの2つの言語を特徴とする。
論文 参考訳(メタデータ) (2024-07-03T01:56:00Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive Learning for Multimodal Emotion Recognition [14.639340916340801]
マルチモーダル感情認識 (AR-IIGCN) 法に対して, モーダル内およびモーダル間グラフコントラストを用いた新しい適応表現を提案する。
まず、ビデオ、オーディオ、テキストの特徴を多層パーセプトロン(MLP)に入力し、それらを別々の特徴空間にマッピングする。
第2に,逆表現による3つのモーダル特徴に対するジェネレータと判別器を構築する。
第3に、モーダル内およびモーダル間相補的意味情報を取得するために、コントラッシブグラフ表現学習を導入する。
論文 参考訳(メタデータ) (2023-12-28T01:57:26Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - M3ED: Multi-modal Multi-scene Multi-label Emotional Dialogue Database [139.08528216461502]
マルチモーダルマルチシーンマルチラベル感情対話データセットM3EDを提案する。
M3EDには56の異なるテレビシリーズの990のダイアドの感情対話があり、合計9,082回、24,449発の発声がある。
我々の知る限りでは、M3EDは中国語における最初のマルチモーダル感情対話データセットである。
論文 参考訳(メタデータ) (2022-05-09T06:52:51Z) - Multistage linguistic conditioning of convolutional layers for speech
emotion recognition [7.482371204083917]
分類的・次元音声感情認識(SER)におけるテキストと音声の深層融合の有効性について検討する。
深層ニューラルネットワーク(DNN)の複数の層に2つの情報ストリームを統合する新しい多段階融合法を提案する。
広く使われているIEMOCAPとMSP-Podcastデータベースの実験により、この2つの融合法は浅い(後期)核融合ベースラインよりも明らかに優れていることが示された。
論文 参考訳(メタデータ) (2021-10-13T11:28:04Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。