論文の概要: DER-GCN: Dialogue and Event Relation-Aware Graph Convolutional Neural Network for Multimodal Dialogue Emotion Recognition
- arxiv url: http://arxiv.org/abs/2312.10579v2
- Date: Sat, 31 Aug 2024 12:41:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 21:42:39.344611
- Title: DER-GCN: Dialogue and Event Relation-Aware Graph Convolutional Neural Network for Multimodal Dialogue Emotion Recognition
- Title(参考訳): DER-GCN:マルチモーダル対話感情認識のための対話とイベント関係を考慮したグラフ畳み込みニューラルネットワーク
- Authors: Wei Ai, Yuntao Shou, Tao Meng, Nan Yin, Keqin Li,
- Abstract要約: 本稿では,多モーダル感情認識(DER-GCN)のための新しい対話・イベント関係対応グラフ畳み込みニューラルネットワークを提案する。
話者間の対話関係をモデル化し、潜在イベント関係情報をキャプチャする。
DER-GCNモデルの有効性を検証したIEMOCAPおよびMELDベンチマークデータセットについて広範な実験を行った。
- 参考スコア(独自算出の注目度): 14.639340916340801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the continuous development of deep learning (DL), the task of multimodal dialogue emotion recognition (MDER) has recently received extensive research attention, which is also an essential branch of DL. The MDER aims to identify the emotional information contained in different modalities, e.g., text, video, and audio, in different dialogue scenes. However, existing research has focused on modeling contextual semantic information and dialogue relations between speakers while ignoring the impact of event relations on emotion. To tackle the above issues, we propose a novel Dialogue and Event Relation-Aware Graph Convolutional Neural Network for Multimodal Emotion Recognition (DER-GCN) method. It models dialogue relations between speakers and captures latent event relations information. Specifically, we construct a weighted multi-relationship graph to simultaneously capture the dependencies between speakers and event relations in a dialogue. Moreover, we also introduce a Self-Supervised Masked Graph Autoencoder (SMGAE) to improve the fusion representation ability of features and structures. Next, we design a new Multiple Information Transformer (MIT) to capture the correlation between different relations, which can provide a better fuse of the multivariate information between relations. Finally, we propose a loss optimization strategy based on contrastive learning to enhance the representation learning ability of minority class features. We conduct extensive experiments on the IEMOCAP and MELD benchmark datasets, which verify the effectiveness of the DER-GCN model. The results demonstrate that our model significantly improves both the average accuracy and the f1 value of emotion recognition.
- Abstract(参考訳): 近年,深層学習(DL)の継続的な発展に伴い,多モーダル対話感情認識(MDER)の課題にも注目が集まっている。
MDERは、異なる対話シーンで、例えば、テキスト、ビデオ、オーディオなど、さまざまなモードに含まれる感情情報を識別することを目的としている。
しかし、既存の研究は、感情に対する出来事関係の影響を無視しながら、文脈意味情報と話者間の対話関係のモデル化に重点を置いている。
上記の課題に対処するために,多モーダル感情認識(DER-GCN)のための新しい対話・イベント関係対応グラフ畳み込みニューラルネットワークを提案する。
話者間の対話関係をモデル化し、潜在イベント関係情報をキャプチャする。
具体的には、対話における話者とイベントの関係の依存関係を同時にキャプチャする重み付きマルチリレーショナルグラフを構築する。
さらに,SMGAE(Self-Supervised Masked Graph Autoencoder)を導入し,特徴と構造の融合表現性を向上させる。
次に、異なる関係間の相関を捉えるための新しい多重情報変換器(MIT)を設計し、関係間の多変量情報をよりよく融合させる。
最後に,少数クラス特徴の表現学習能力を高めるために,コントラスト学習に基づく損失最適化戦略を提案する。
DER-GCNモデルの有効性を検証したIEMOCAPおよびMELDベンチマークデータセットについて広範な実験を行った。
その結果,本モデルは感情認識の平均精度とf1値の両方を有意に向上させることがわかった。
関連論文リスト
- Efficient Long-distance Latent Relation-aware Graph Neural Network for Multi-modal Emotion Recognition in Conversations [8.107561045241445]
会話におけるマルチモーダル感情認識のための高効率長距離遅延関係認識グラフニューラルネットワーク(ELR-GNN)を提案する。
ELR-GNNはIEMOCAPとMELDのベンチマークで最先端のパフォーマンスを実現し、それぞれ実行時間を52%と35%削減した。
論文 参考訳(メタデータ) (2024-06-27T15:54:12Z) - ESIHGNN: Event-State Interactions Infused Heterogeneous Graph Neural Network for Conversational Emotion Recognition [16.800240197327923]
既存のグラフベースの手法は主に会話コンテキストを理解するためのイベントインタラクションに焦点を当てている。
異種グラフニューラルネットワーク(ESIHGNN)を用いたイベント-状態相互作用というグラフに基づく新しい手法を提案する。
ESIHGNNは話者の感情状態を取り入れ、会話をモデル化するための異種事象状態相互作用グラフを構築する。
論文 参考訳(メタデータ) (2024-05-07T02:46:11Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive Learning for Multimodal Emotion Recognition [14.639340916340801]
マルチモーダル感情認識 (AR-IIGCN) 法に対して, モーダル内およびモーダル間グラフコントラストを用いた新しい適応表現を提案する。
まず、ビデオ、オーディオ、テキストの特徴を多層パーセプトロン(MLP)に入力し、それらを別々の特徴空間にマッピングする。
第2に,逆表現による3つのモーダル特徴に対するジェネレータと判別器を構築する。
第3に、モーダル内およびモーダル間相補的意味情報を取得するために、コントラッシブグラフ表現学習を導入する。
論文 参考訳(メタデータ) (2023-12-28T01:57:26Z) - Conversation Understanding using Relational Temporal Graph Neural
Networks with Auxiliary Cross-Modality Interaction [2.1261712640167856]
感情認識は人間の会話理解にとって重要な課題である。
我々は,CORECT(Cross-Modality Interaction)を用いた入力時間グラフニューラルネットワークを提案する。
CORECTは会話レベルの対話と発話レベルの時間的依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2023-11-08T07:46:25Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Modeling Coreference Relations in Visual Dialog [18.926582410644375]
ダイアログにおけるコア参照関係の発生は、視覚的質問応答よりも難しい課題となる。
教師なしの方法でダイアログにおけるコア参照を解消するモデルの能力を改善する2つのソフト制約を提案する。
論文 参考訳(メタデータ) (2022-03-06T15:22:24Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - GRADE: Automatic Graph-Enhanced Coherence Metric for Evaluating
Open-Domain Dialogue Systems [133.13117064357425]
自動対話評価のためのグラフ強調表現のための新しい評価指標GRADEを提案する。
具体的には、対話コヒーレンスを評価するために、粗粒度発話レベルの文脈化表現と細粒度トピックレベルのグラフ表現の両方を組み込んでいる。
実験の結果,GRADEは多様な対話モデルの測定において,他の最先端の指標よりも優れていた。
論文 参考訳(メタデータ) (2020-10-08T14:07:32Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。