論文の概要: Dynamic Graph Neural Ordinary Differential Equation Network for Multi-modal Emotion Recognition in Conversation
- arxiv url: http://arxiv.org/abs/2412.02935v1
- Date: Wed, 04 Dec 2024 01:07:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:09:00.832059
- Title: Dynamic Graph Neural Ordinary Differential Equation Network for Multi-modal Emotion Recognition in Conversation
- Title(参考訳): 対話におけるマルチモーダル感情認識のための動的グラフニューラル正規微分方程式ネットワーク
- Authors: Yuntao Shou, Tao Meng, Wei Ai, Keqin Li,
- Abstract要約: 会話におけるマルチモーダル感情認識のための動的グラフニューラル正規微分方程式ネットワーク(DGODE)を提案する。
提案したDGODEは、感情の動的変化を組み合わせ、話者の感情の時間的依存を捉える。
2つの一般公開されたマルチモーダル感情認識データセットの実験により、提案したDGODEモデルは、様々なベースラインと比較して優れた性能を示した。
- 参考スコア(独自算出の注目度): 14.158939954453933
- License:
- Abstract: Multimodal emotion recognition in conversation (MERC) refers to identifying and classifying human emotional states by combining data from multiple different modalities (e.g., audio, images, text, video, etc.). Most existing multimodal emotion recognition methods use GCN to improve performance, but existing GCN methods are prone to overfitting and cannot capture the temporal dependency of the speaker's emotions. To address the above problems, we propose a Dynamic Graph Neural Ordinary Differential Equation Network (DGODE) for MERC, which combines the dynamic changes of emotions to capture the temporal dependency of speakers' emotions, and effectively alleviates the overfitting problem of GCNs. Technically, the key idea of DGODE is to utilize an adaptive mixhop mechanism to improve the generalization ability of GCNs and use the graph ODE evolution network to characterize the continuous dynamics of node representations over time and capture temporal dependencies. Extensive experiments on two publicly available multimodal emotion recognition datasets demonstrate that the proposed DGODE model has superior performance compared to various baselines. Furthermore, the proposed DGODE can also alleviate the over-smoothing problem, thereby enabling the construction of a deep GCN network.
- Abstract(参考訳): 会話におけるマルチモーダル感情認識(MERC)とは、複数のモーダル(音声、画像、テキスト、ビデオなど)からのデータを組み合わせて人間の感情状態を特定し分類することである。
既存のマルチモーダル感情認識法の多くはGCNを使用して性能を向上させるが、既存のGCN法は過度に適合する傾向にあり、話者の感情の時間的依存を捉えることができない。
上記の問題に対処するため,MERC のための動的グラフニューラル正規微分方程式ネットワーク (DGODE) を提案し,感情の動的変化を組み合わせて話者の感情の時間的依存性を捉え,GCN の過度に適合する問題を効果的に緩和する。
技術的には、DGODEの鍵となる考え方は、適応的なミックスホップ機構を用いてGCNの一般化能力を改善し、グラフODE進化ネットワークを用いて、時間とともにノード表現の連続的なダイナミクスを特徴づけ、時間的依存を捉えることである。
公開されている2つのマルチモーダル感情認識データセットの大規模な実験により、提案したDGODEモデルは、様々なベースラインと比較して優れた性能を示した。
さらに,提案したDGODEはオーバースムース化問題を緩和し,深いGCNネットワークの構築を可能にする。
関連論文リスト
- Tracing Intricate Cues in Dialogue: Joint Graph Structure and Sentiment Dynamics for Multimodal Emotion Recognition [37.12407597998884]
マルチモーダル対話における複雑な感情的手がかりを追跡するために,GraphSmileという新しい手法が提案されている。
GraphSmileは2つの重要なコンポーネント、すなわちGSFとSDPモジュールから構成される。
複数のベンチマークにおける実証的な結果は、GraphSmileが複雑な感情的および感情的パターンを処理可能であることを示している。
論文 参考訳(メタデータ) (2024-07-31T11:47:36Z) - Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive Learning for Multimodal Emotion Recognition [14.639340916340801]
マルチモーダル感情認識 (AR-IIGCN) 法に対して, モーダル内およびモーダル間グラフコントラストを用いた新しい適応表現を提案する。
まず、ビデオ、オーディオ、テキストの特徴を多層パーセプトロン(MLP)に入力し、それらを別々の特徴空間にマッピングする。
第2に,逆表現による3つのモーダル特徴に対するジェネレータと判別器を構築する。
第3に、モーダル内およびモーダル間相補的意味情報を取得するために、コントラッシブグラフ表現学習を導入する。
論文 参考訳(メタデータ) (2023-12-28T01:57:26Z) - Capturing Spectral and Long-term Contextual Information for Speech
Emotion Recognition Using Deep Learning Techniques [0.0]
本研究では,テキストデータ処理のためのグラフ畳み込みネットワーク(GCN)と,音声信号解析のためのHuBERT変換器を組み合わせたアンサンブルモデルを提案する。
GCNとHuBERTを組み合わせることで、我々のアンサンブルモデルは両方のアプローチの強みを利用することができる。
その結果, 合成モデルが従来の手法の限界を克服し, 音声からの感情認識の精度が向上することが示唆された。
論文 参考訳(メタデータ) (2023-08-04T06:20:42Z) - EMERSK -- Explainable Multimodal Emotion Recognition with Situational
Knowledge [0.0]
状況知識を用いた説明可能なマルチモーダル感情認識(EMERSK)を提案する。
EMERSKは視覚情報を用いた人間の感情認識と説明のための汎用システムである。
本システムは, 表情, 姿勢, 歩行などの複数のモーダルを柔軟かつモジュラーな方法で処理することができる。
論文 参考訳(メタデータ) (2023-06-14T17:52:37Z) - MSA-GCN:Multiscale Adaptive Graph Convolution Network for Gait Emotion
Recognition [6.108523790270448]
本稿では,感情認識のためのマルチスケール適応グラフ畳み込みネットワーク(MSA-GCN)を提案する。
本モデルでは, 適応的選択的時空間畳み込みを設計し, コンボリューションカーネルを動的に選択し, 異なる感情のソフト・テンポラルな特徴を得る。
従来の最先端手法と比較して,提案手法は2つの公開データセット上で最高の性能を実現する。
論文 参考訳(メタデータ) (2022-09-19T13:07:16Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - Attention-Driven Dynamic Graph Convolutional Network for Multi-Label
Image Recognition [53.17837649440601]
本稿では,各画像の特定のグラフを動的に生成するアテンション駆動型動的グラフ畳み込みネットワーク(ADD-GCN)を提案する。
パブリックなマルチラベルベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-12-05T10:10:12Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - Video-based Facial Expression Recognition using Graph Convolutional
Networks [57.980827038988735]
我々は、ビデオベースの表情認識のための共通のCNN-RNNモデルに、GCN(Graph Convolutional Network)層を導入する。
我々は、CK+、Oulu-CASIA、MMIの3つの広く使われているデータセットと、AFEW8.0の挑戦的なワイルドデータセットについて、本手法の評価を行った。
論文 参考訳(メタデータ) (2020-10-26T07:31:51Z) - Time Dependence in Non-Autonomous Neural ODEs [74.78386661760662]
時変重みを持つニューラルODEの新しいファミリーを提案する。
我々は、速度と表現能力の両面で、従来のニューラルODEの変形よりも優れていた。
論文 参考訳(メタデータ) (2020-05-05T01:41:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。