論文の概要: HetEmotionNet: Two-Stream Heterogeneous Graph Recurrent Neural Network
for Multi-modal Emotion Recognition
- arxiv url: http://arxiv.org/abs/2108.03354v1
- Date: Sat, 7 Aug 2021 03:03:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 15:42:56.894355
- Title: HetEmotionNet: Two-Stream Heterogeneous Graph Recurrent Neural Network
for Multi-modal Emotion Recognition
- Title(参考訳): HetEmotionNet:マルチモーダル感情認識のための2ストリーム不均一グラフリカレントニューラルネットワーク
- Authors: Ziyu Jia, Youfang Lin, Jing Wang, Zhiyang Feng, Xiangheng Xie, Caijie
Chen
- Abstract要約: 本稿では,感情認識のためのマルチモーダルな生理的信号を融合した2ストリームのヘテロジニアスグラフリカレントニューラルネットワークHetEmotionNetを提案する。
HetEmotionNetは空間時空間ストリームと空間時空間ストリームで構成される。
- 参考スコア(独自算出の注目度): 9.293787425132344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The research on human emotion under multimedia stimulation based on
physiological signals is an emerging field, and important progress has been
achieved for emotion recognition based on multi-modal signals. However, it is
challenging to make full use of the complementarity among
spatial-spectral-temporal domain features for emotion recognition, as well as
model the heterogeneity and correlation among multi-modal signals. In this
paper, we propose a novel two-stream heterogeneous graph recurrent neural
network, named HetEmotionNet, fusing multi-modal physiological signals for
emotion recognition. Specifically, HetEmotionNet consists of the
spatial-temporal stream and the spatial-spectral stream, which can fuse
spatial-spectral-temporal domain features in a unified framework. Each stream
is composed of the graph transformer network for modeling the heterogeneity,
the graph convolutional network for modeling the correlation, and the gated
recurrent unit for capturing the temporal domain or spectral domain dependency.
Extensive experiments on two real-world datasets demonstrate that our proposed
model achieves better performance than state-of-the-art baselines.
- Abstract(参考訳): 生理的信号に基づくマルチメディア刺激下での人間の感情の研究は、新たな分野であり、マルチモーダル信号に基づく感情認識において重要な進歩を遂げている。
しかし、感情認識のための空間スペクトル・時間領域の特徴の相補性を十分に活用することや、マルチモーダル信号間の不均一性と相関をモデル化することは困難である。
本稿では,感情認識のためのマルチモーダルな生理的信号を用いて,hetemotionnetという2流不均質グラフリカレントニューラルネットワークを提案する。
具体的には、hetemotionnetは空間-時間-ストリームと空間-スペクトルストリームで構成され、統一されたフレームワークで空間-スペクトル-時間-ドメインの特徴を融合することができる。
各ストリームは、不均一性をモデル化するグラフトランスフォーマーネットワークと、相関をモデル化するグラフ畳み込みネットワークと、時間領域またはスペクトル領域依存性をキャプチャするゲートリカレントユニットとから構成される。
2つの実世界のデータセットに関する広範囲な実験により、提案モデルが最先端のベースラインよりも優れたパフォーマンスを実現することを実証した。
関連論文リスト
- A Hybrid End-to-End Spatio-Temporal Attention Neural Network with
Graph-Smooth Signals for EEG Emotion Recognition [1.6328866317851187]
本稿では,ネットワーク・テンポラルエンコーディングと繰り返しアテンションブロックのハイブリッド構造を用いて,解釈可能な表現を取得するディープニューラルネットワークを提案する。
提案したアーキテクチャは、公開されているDEAPデータセット上での感情分類の最先端結果を上回ることを実証する。
論文 参考訳(メタデータ) (2023-07-06T15:35:14Z) - TACOformer:Token-channel compounded Cross Attention for Multimodal
Emotion Recognition [0.951828574518325]
本稿では,チャネルレベルとトークンレベルの相互通信を統合したマルチモーダル融合の包括的視点を提案する。
具体的には,Token-chAnnel Compound (TACO) Cross Attentionというクロスアテンションモジュールを導入する。
また,脳波信号チャネルの空間分布に関する情報を保存するための2次元位置符号化手法を提案する。
論文 参考訳(メタデータ) (2023-06-23T16:28:12Z) - Unsupervised Domain Transfer with Conditional Invertible Neural Networks [83.90291882730925]
条件付き可逆ニューラルネットワーク(cINN)に基づくドメイン転送手法を提案する。
提案手法は本質的に,その可逆的アーキテクチャによるサイクル一貫性を保証し,ネットワークトレーニングを最大限効率的に行うことができる。
提案手法は,2つの下流分類タスクにおいて,現実的なスペクトルデータの生成を可能にし,その性能を向上する。
論文 参考訳(メタデータ) (2023-03-17T18:00:27Z) - Improving EEG-based Emotion Recognition by Fusing Time-frequency And
Spatial Representations [29.962519978925236]
クロスドメイン特徴融合法に基づく分類ネットワークを提案する。
また,2段階融合法を提案し,これらの手法を脳波感情認識ネットワークに適用する。
実験結果から,時間周波数領域と空間領域の複数の表現を結合したネットワークが,公開データセット上で従来の手法より優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-03-14T07:26:51Z) - Deep Representations for Time-varying Brain Datasets [4.129225533930966]
本稿では、領域マップされたfMRIシーケンスと構造接続性の両方を入力として組み込んだ効率的なグラフニューラルネットワークモデルを構築する。
サンプルレベルの適応的隣接行列を学習することで、潜伏する脳のダイナミクスのよい表現を見つけ出す。
これらのモジュールは容易に適応でき、神経科学領域以外の用途にも有用である可能性がある。
論文 参考訳(メタデータ) (2022-05-23T21:57:31Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - A Two-stream Neural Network for Pose-based Hand Gesture Recognition [23.50938160992517]
近年,ポーズに基づくジェスチャー認識が広く研究されている。
本稿では,グラフ畳み込みネットワーク(sagcn)を1ストリームとする2ストリームニューラルネットワークを提案する。
残差接続強化Bi-IndRNNは、時間モデリングのための双方向処理機能を備えたIndRNNを拡張する。
論文 参考訳(メタデータ) (2021-01-22T03:22:26Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z) - Video-based Remote Physiological Measurement via Cross-verified Feature
Disentangling [121.50704279659253]
非生理的表現と生理的特徴を混同するための横断的特徴分離戦略を提案する。
次に, 蒸留された生理特性を用いて, 頑健なマルチタスク生理測定を行った。
歪んだ特徴は、最終的に平均HR値やr信号のような複数の生理的信号の合同予測に使用される。
論文 参考訳(メタデータ) (2020-07-16T09:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。