論文の概要: HetEmotionNet: Two-Stream Heterogeneous Graph Recurrent Neural Network
for Multi-modal Emotion Recognition
- arxiv url: http://arxiv.org/abs/2108.03354v1
- Date: Sat, 7 Aug 2021 03:03:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 15:42:56.894355
- Title: HetEmotionNet: Two-Stream Heterogeneous Graph Recurrent Neural Network
for Multi-modal Emotion Recognition
- Title(参考訳): HetEmotionNet:マルチモーダル感情認識のための2ストリーム不均一グラフリカレントニューラルネットワーク
- Authors: Ziyu Jia, Youfang Lin, Jing Wang, Zhiyang Feng, Xiangheng Xie, Caijie
Chen
- Abstract要約: 本稿では,感情認識のためのマルチモーダルな生理的信号を融合した2ストリームのヘテロジニアスグラフリカレントニューラルネットワークHetEmotionNetを提案する。
HetEmotionNetは空間時空間ストリームと空間時空間ストリームで構成される。
- 参考スコア(独自算出の注目度): 9.293787425132344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The research on human emotion under multimedia stimulation based on
physiological signals is an emerging field, and important progress has been
achieved for emotion recognition based on multi-modal signals. However, it is
challenging to make full use of the complementarity among
spatial-spectral-temporal domain features for emotion recognition, as well as
model the heterogeneity and correlation among multi-modal signals. In this
paper, we propose a novel two-stream heterogeneous graph recurrent neural
network, named HetEmotionNet, fusing multi-modal physiological signals for
emotion recognition. Specifically, HetEmotionNet consists of the
spatial-temporal stream and the spatial-spectral stream, which can fuse
spatial-spectral-temporal domain features in a unified framework. Each stream
is composed of the graph transformer network for modeling the heterogeneity,
the graph convolutional network for modeling the correlation, and the gated
recurrent unit for capturing the temporal domain or spectral domain dependency.
Extensive experiments on two real-world datasets demonstrate that our proposed
model achieves better performance than state-of-the-art baselines.
- Abstract(参考訳): 生理的信号に基づくマルチメディア刺激下での人間の感情の研究は、新たな分野であり、マルチモーダル信号に基づく感情認識において重要な進歩を遂げている。
しかし、感情認識のための空間スペクトル・時間領域の特徴の相補性を十分に活用することや、マルチモーダル信号間の不均一性と相関をモデル化することは困難である。
本稿では,感情認識のためのマルチモーダルな生理的信号を用いて,hetemotionnetという2流不均質グラフリカレントニューラルネットワークを提案する。
具体的には、hetemotionnetは空間-時間-ストリームと空間-スペクトルストリームで構成され、統一されたフレームワークで空間-スペクトル-時間-ドメインの特徴を融合することができる。
各ストリームは、不均一性をモデル化するグラフトランスフォーマーネットワークと、相関をモデル化するグラフ畳み込みネットワークと、時間領域またはスペクトル領域依存性をキャプチャするゲートリカレントユニットとから構成される。
2つの実世界のデータセットに関する広範囲な実験により、提案モデルが最先端のベースラインよりも優れたパフォーマンスを実現することを実証した。
関連論文リスト
- Multimodal Physiological Signals Representation Learning via Multiscale Contrasting for Depression Recognition [18.65975882665568]
機能近赤外分光法(NIRS)や脳波法(EEG)などの生理的信号に基づく抑うつは大きな進歩を遂げている。
本稿では,抑うつ認識のためのマルチスケールコントラストを用いたアーキテクチャを用いたマルチモーダル生理学的信号表現学習フレームワークを提案する。
刺激タスクに関連する意味表現の学習を強化するために,意味コントラストモジュールを提案する。
論文 参考訳(メタデータ) (2024-06-22T09:28:02Z) - Multi-modal Mood Reader: Pre-trained Model Empowers Cross-Subject Emotion Recognition [23.505616142198487]
我々は、クロスオブジェクト感情認識のための訓練済みモデルに基づくMultimodal Mood Readerを開発した。
このモデルは、大規模データセットの事前学習を通じて、脳波信号の普遍的な潜在表現を学習する。
公開データセットに関する大規模な実験は、クロスオブジェクト感情認識タスクにおけるMood Readerの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-05-28T14:31:11Z) - Interpretable Spatio-Temporal Embedding for Brain Structural-Effective Network with Ordinary Differential Equation [56.34634121544929]
本研究では,まず動的因果モデルを用いて脳効果ネットワークを構築する。
次に、STE-ODE(Spatio-Temporal Embedding ODE)と呼ばれる解釈可能なグラフ学習フレームワークを導入する。
このフレームワークは、構造的および効果的なネットワーク間の動的相互作用を捉えることを目的とした、特異的に設計されたノード埋め込み層を含んでいる。
論文 参考訳(メタデータ) (2024-05-21T20:37:07Z) - TACOformer:Token-channel compounded Cross Attention for Multimodal
Emotion Recognition [0.951828574518325]
本稿では,チャネルレベルとトークンレベルの相互通信を統合したマルチモーダル融合の包括的視点を提案する。
具体的には,Token-chAnnel Compound (TACO) Cross Attentionというクロスアテンションモジュールを導入する。
また,脳波信号チャネルの空間分布に関する情報を保存するための2次元位置符号化手法を提案する。
論文 参考訳(メタデータ) (2023-06-23T16:28:12Z) - Unsupervised Domain Transfer with Conditional Invertible Neural Networks [83.90291882730925]
条件付き可逆ニューラルネットワーク(cINN)に基づくドメイン転送手法を提案する。
提案手法は本質的に,その可逆的アーキテクチャによるサイクル一貫性を保証し,ネットワークトレーニングを最大限効率的に行うことができる。
提案手法は,2つの下流分類タスクにおいて,現実的なスペクトルデータの生成を可能にし,その性能を向上する。
論文 参考訳(メタデータ) (2023-03-17T18:00:27Z) - Deep Representations for Time-varying Brain Datasets [4.129225533930966]
本稿では、領域マップされたfMRIシーケンスと構造接続性の両方を入力として組み込んだ効率的なグラフニューラルネットワークモデルを構築する。
サンプルレベルの適応的隣接行列を学習することで、潜伏する脳のダイナミクスのよい表現を見つけ出す。
これらのモジュールは容易に適応でき、神経科学領域以外の用途にも有用である可能性がある。
論文 参考訳(メタデータ) (2022-05-23T21:57:31Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - A Two-stream Neural Network for Pose-based Hand Gesture Recognition [23.50938160992517]
近年,ポーズに基づくジェスチャー認識が広く研究されている。
本稿では,グラフ畳み込みネットワーク(sagcn)を1ストリームとする2ストリームニューラルネットワークを提案する。
残差接続強化Bi-IndRNNは、時間モデリングのための双方向処理機能を備えたIndRNNを拡張する。
論文 参考訳(メタデータ) (2021-01-22T03:22:26Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。