Fugu-MT 論文翻訳(概要): DER-GCN: Dialogue and Event Relation-Aware Graph Convolutional Neural Network for Multimodal Dialogue Emotion Recognition

論文の概要: DER-GCN: Dialogue and Event Relation-Aware Graph Convolutional Neural Network for Multimodal Dialogue Emotion Recognition

arxiv url: http://arxiv.org/abs/2312.10579v2
Date: Sat, 31 Aug 2024 12:41:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-04 21:42:39.344611
Title: DER-GCN: Dialogue and Event Relation-Aware Graph Convolutional Neural Network for Multimodal Dialogue Emotion Recognition
Title（参考訳）: DER-GCN:マルチモーダル対話感情認識のための対話とイベント関係を考慮したグラフ畳み込みニューラルネットワーク
Authors: Wei Ai, Yuntao Shou, Tao Meng, Nan Yin, Keqin Li,
Abstract要約: 本稿では,多モーダル感情認識(DER-GCN)のための新しい対話・イベント関係対応グラフ畳み込みニューラルネットワークを提案する。話者間の対話関係をモデル化し、潜在イベント関係情報をキャプチャする。 DER-GCNモデルの有効性を検証したIEMOCAPおよびMELDベンチマークデータセットについて広範な実験を行った。
参考スコア（独自算出の注目度）: 14.639340916340801
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the continuous development of deep learning (DL), the task of multimodal dialogue emotion recognition (MDER) has recently received extensive research attention, which is also an essential branch of DL. The MDER aims to identify the emotional information contained in different modalities, e.g., text, video, and audio, in different dialogue scenes. However, existing research has focused on modeling contextual semantic information and dialogue relations between speakers while ignoring the impact of event relations on emotion. To tackle the above issues, we propose a novel Dialogue and Event Relation-Aware Graph Convolutional Neural Network for Multimodal Emotion Recognition (DER-GCN) method. It models dialogue relations between speakers and captures latent event relations information. Specifically, we construct a weighted multi-relationship graph to simultaneously capture the dependencies between speakers and event relations in a dialogue. Moreover, we also introduce a Self-Supervised Masked Graph Autoencoder (SMGAE) to improve the fusion representation ability of features and structures. Next, we design a new Multiple Information Transformer (MIT) to capture the correlation between different relations, which can provide a better fuse of the multivariate information between relations. Finally, we propose a loss optimization strategy based on contrastive learning to enhance the representation learning ability of minority class features. We conduct extensive experiments on the IEMOCAP and MELD benchmark datasets, which verify the effectiveness of the DER-GCN model. The results demonstrate that our model significantly improves both the average accuracy and the f1 value of emotion recognition.
Abstract（参考訳）: 近年,深層学習(DL)の継続的な発展に伴い,多モーダル対話感情認識(MDER)の課題にも注目が集まっている。 MDERは、異なる対話シーンで、例えば、テキスト、ビデオ、オーディオなど、さまざまなモードに含まれる感情情報を識別することを目的としている。しかし、既存の研究は、感情に対する出来事関係の影響を無視しながら、文脈意味情報と話者間の対話関係のモデル化に重点を置いている。上記の課題に対処するために,多モーダル感情認識(DER-GCN)のための新しい対話・イベント関係対応グラフ畳み込みニューラルネットワークを提案する。話者間の対話関係をモデル化し、潜在イベント関係情報をキャプチャする。具体的には、対話における話者とイベントの関係の依存関係を同時にキャプチャする重み付きマルチリレーショナルグラフを構築する。さらに,SMGAE(Self-Supervised Masked Graph Autoencoder)を導入し,特徴と構造の融合表現性を向上させる。次に、異なる関係間の相関を捉えるための新しい多重情報変換器(MIT)を設計し、関係間の多変量情報をよりよく融合させる。最後に,少数クラス特徴の表現学習能力を高めるために,コントラスト学習に基づく損失最適化戦略を提案する。 DER-GCNモデルの有効性を検証したIEMOCAPおよびMELDベンチマークデータセットについて広範な実験を行った。その結果,本モデルは感情認識の平均精度とf1値の両方を有意に向上させることがわかった。

関連論文リスト

Dynamic Scoring with Enhanced Semantics for Training-Free Human-Object Interaction Detection [51.52749744031413]
人間オブジェクトインタラクション(HOI)検出は、画像内の人間と物体を識別し、その相互作用を解釈することを目的としている。既存のHOIメソッドは、視覚的手がかりからインタラクションを学ぶために手動アノテーションを備えた大規模なデータセットに大きく依存している。本稿では,強化意味論を用いた動的スコーリングのための新しいトレーニング不要なHOI検出フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-23T12:30:19Z)
Long-Short Distance Graph Neural Networks and Improved Curriculum Learning for Emotion Recognition in Conversation [3.031375888004876]
本稿では,会話における感情認識(ERC)に対する新しいマルチモーダルアプローチを提案する。遠距離グラフニューラルネットワークと短距離グラフニューラルネットワークを構築し、遠距離および近距離発話のマルチモーダル特徴を得る。 IEMOCAPとMELDデータセットの実験結果は、我々のモデルが既存のベンチマークより優れていることを示している。
論文参考訳（メタデータ） (2025-07-21T03:12:54Z)
Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文参考訳（メタデータ） (2024-12-30T14:09:15Z)
Effective Context Modeling Framework for Emotion Recognition in Conversations [2.7175580940471913]
会話における感情認識(英語: Emotion Recognition in Conversations, ERC)は、会話中の各発話における話者による感情のより深い理解を促進する。最近のグラフニューラルネットワーク(GNN)は、データ関係をキャプチャする上で、その強みを実証している。本稿では,会話中の文脈情報をキャプチャする新しいGNNベースのフレームワークであるConxGNNを提案する。
論文参考訳（メタデータ） (2024-12-21T02:22:06Z)
Efficient Long-distance Latent Relation-aware Graph Neural Network for Multi-modal Emotion Recognition in Conversations [8.107561045241445]
会話におけるマルチモーダル感情認識のための高効率長距離遅延関係認識グラフニューラルネットワーク(ELR-GNN)を提案する。 ELR-GNNはIEMOCAPとMELDのベンチマークで最先端のパフォーマンスを実現し、それぞれ実行時間を52%と35%削減した。
論文参考訳（メタデータ） (2024-06-27T15:54:12Z)
ESIHGNN: Event-State Interactions Infused Heterogeneous Graph Neural Network for Conversational Emotion Recognition [16.800240197327923]
既存のグラフベースの手法は主に会話コンテキストを理解するためのイベントインタラクションに焦点を当てている。異種グラフニューラルネットワーク(ESIHGNN)を用いたイベント-状態相互作用というグラフに基づく新しい手法を提案する。 ESIHGNNは話者の感情状態を取り入れ、会話をモデル化するための異種事象状態相互作用グラフを構築する。
論文参考訳（メタデータ） (2024-05-07T02:46:11Z)
AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文参考訳（メタデータ） (2024-04-12T11:31:18Z)
Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive Learning for Multimodal Emotion Recognition [14.639340916340801]
マルチモーダル感情認識 (AR-IIGCN) 法に対して, モーダル内およびモーダル間グラフコントラストを用いた新しい適応表現を提案する。まず、ビデオ、オーディオ、テキストの特徴を多層パーセプトロン(MLP)に入力し、それらを別々の特徴空間にマッピングする。第2に,逆表現による3つのモーダル特徴に対するジェネレータと判別器を構築する。第3に、モーダル内およびモーダル間相補的意味情報を取得するために、コントラッシブグラフ表現学習を導入する。
論文参考訳（メタデータ） (2023-12-28T01:57:26Z)
Conversation Understanding using Relational Temporal Graph Neural Networks with Auxiliary Cross-Modality Interaction [2.1261712640167856]
感情認識は人間の会話理解にとって重要な課題である。我々は,CORECT(Cross-Modality Interaction)を用いた入力時間グラフニューラルネットワークを提案する。 CORECTは会話レベルの対話と発話レベルの時間的依存関係を効果的にキャプチャする。
論文参考訳（メタデータ） (2023-11-08T07:46:25Z)
Re-mine, Learn and Reason: Exploring the Cross-modal Semantic Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文参考訳（メタデータ） (2023-07-25T14:20:52Z)
Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-01-10T13:18:25Z)
Modeling Coreference Relations in Visual Dialog [18.926582410644375]
ダイアログにおけるコア参照関係の発生は、視覚的質問応答よりも難しい課題となる。教師なしの方法でダイアログにおけるコア参照を解消するモデルの能力を改善する2つのソフト制約を提案する。
論文参考訳（メタデータ） (2022-03-06T15:22:24Z)
Multimodal Emotion Recognition using Transfer Learning from Speaker Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文参考訳（メタデータ） (2022-02-16T00:23:42Z)
GRADE: Automatic Graph-Enhanced Coherence Metric for Evaluating Open-Domain Dialogue Systems [133.13117064357425]
自動対話評価のためのグラフ強調表現のための新しい評価指標GRADEを提案する。具体的には、対話コヒーレンスを評価するために、粗粒度発話レベルの文脈化表現と細粒度トピックレベルのグラフ表現の両方を組み込んでいる。実験の結果,GRADEは多様な対話モデルの測定において,他の最先端の指標よりも優れていた。
論文参考訳（メタデータ） (2020-10-08T14:07:32Z)
ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文参考訳（メタデータ） (2020-06-15T12:25:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。