Fugu-MT 論文翻訳(概要): HetEmotionNet: Two-Stream Heterogeneous Graph Recurrent Neural Network for Multi-modal Emotion Recognition

論文の概要: HetEmotionNet: Two-Stream Heterogeneous Graph Recurrent Neural Network for Multi-modal Emotion Recognition

arxiv url: http://arxiv.org/abs/2108.03354v1
Date: Sat, 7 Aug 2021 03:03:52 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-10 15:42:56.894355
Title: HetEmotionNet: Two-Stream Heterogeneous Graph Recurrent Neural Network for Multi-modal Emotion Recognition
Title（参考訳）: HetEmotionNet:マルチモーダル感情認識のための2ストリーム不均一グラフリカレントニューラルネットワーク
Authors: Ziyu Jia, Youfang Lin, Jing Wang, Zhiyang Feng, Xiangheng Xie, Caijie Chen
Abstract要約: 本稿では,感情認識のためのマルチモーダルな生理的信号を融合した2ストリームのヘテロジニアスグラフリカレントニューラルネットワークHetEmotionNetを提案する。 HetEmotionNetは空間時空間ストリームと空間時空間ストリームで構成される。
参考スコア（独自算出の注目度）: 9.293787425132344
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The research on human emotion under multimedia stimulation based on physiological signals is an emerging field, and important progress has been achieved for emotion recognition based on multi-modal signals. However, it is challenging to make full use of the complementarity among spatial-spectral-temporal domain features for emotion recognition, as well as model the heterogeneity and correlation among multi-modal signals. In this paper, we propose a novel two-stream heterogeneous graph recurrent neural network, named HetEmotionNet, fusing multi-modal physiological signals for emotion recognition. Specifically, HetEmotionNet consists of the spatial-temporal stream and the spatial-spectral stream, which can fuse spatial-spectral-temporal domain features in a unified framework. Each stream is composed of the graph transformer network for modeling the heterogeneity, the graph convolutional network for modeling the correlation, and the gated recurrent unit for capturing the temporal domain or spectral domain dependency. Extensive experiments on two real-world datasets demonstrate that our proposed model achieves better performance than state-of-the-art baselines.
Abstract（参考訳）: 生理的信号に基づくマルチメディア刺激下での人間の感情の研究は、新たな分野であり、マルチモーダル信号に基づく感情認識において重要な進歩を遂げている。しかし、感情認識のための空間スペクトル・時間領域の特徴の相補性を十分に活用することや、マルチモーダル信号間の不均一性と相関をモデル化することは困難である。本稿では,感情認識のためのマルチモーダルな生理的信号を用いて,hetemotionnetという2流不均質グラフリカレントニューラルネットワークを提案する。具体的には、hetemotionnetは空間-時間-ストリームと空間-スペクトルストリームで構成され、統一されたフレームワークで空間-スペクトル-時間-ドメインの特徴を融合することができる。各ストリームは、不均一性をモデル化するグラフトランスフォーマーネットワークと、相関をモデル化するグラフ畳み込みネットワークと、時間領域またはスペクトル領域依存性をキャプチャするゲートリカレントユニットとから構成される。 2つの実世界のデータセットに関する広範囲な実験により、提案モデルが最先端のベースラインよりも優れたパフォーマンスを実現することを実証した。

関連論文リスト

CAST-Phys: Contactless Affective States Through Physiological signals Database [74.28082880875368]
感情的なマルチモーダルデータセットの欠如は、正確な感情認識システムを開発する上で、依然として大きなボトルネックとなっている。遠隔の生理的感情認識が可能な新しい高品質なデータセットであるCAST-Physを提示する。本分析では,表情だけでは十分な感情情報が得られない現実的なシナリオにおいて,生理的信号が重要な役割を担っていることを強調した。
論文参考訳（メタデータ） (2025-07-08T15:20:24Z)
Efficient and Robust Multidimensional Attention in Remote Physiological Sensing through Target Signal Constrained Factorization [7.947387272047604]
マルチモーダルビデオ入力からの光胸腺造影(rRSP)信号と呼吸(rRSP)信号の同時推定を目的とした,効率的なデュアルブランチ3D-CNNアーキテクチャであるMMRPhysを提案する。 TSFMを用いたMMRPhysは、リアルタイムアプリケーションに適した最小の推論レイテンシを維持しつつ、RRSP推定のための領域シフトの一般化において最先端の手法を著しく上回ることを示す。
論文参考訳（メタデータ） (2025-05-11T15:20:45Z)
Multimodal Physiological Signals Representation Learning via Multiscale Contrasting for Depression Recognition [18.65975882665568]
機能近赤外分光法(NIRS)や脳波法(EEG)などの生理的信号に基づく抑うつは大きな進歩を遂げている。本稿では,抑うつ認識のためのマルチスケールコントラストを用いたアーキテクチャを用いたマルチモーダル生理学的信号表現学習フレームワークを提案する。刺激タスクに関連する意味表現の学習を強化するために,意味コントラストモジュールを提案する。
論文参考訳（メタデータ） (2024-06-22T09:28:02Z)
Multi-modal Mood Reader: Pre-trained Model Empowers Cross-Subject Emotion Recognition [23.505616142198487]
我々は、クロスオブジェクト感情認識のための訓練済みモデルに基づくMultimodal Mood Readerを開発した。このモデルは、大規模データセットの事前学習を通じて、脳波信号の普遍的な潜在表現を学習する。公開データセットに関する大規模な実験は、クロスオブジェクト感情認識タスクにおけるMood Readerの優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-05-28T14:31:11Z)
Interpretable Spatio-Temporal Embedding for Brain Structural-Effective Network with Ordinary Differential Equation [56.34634121544929]
本研究では,まず動的因果モデルを用いて脳効果ネットワークを構築する。次に、STE-ODE(Spatio-Temporal Embedding ODE)と呼ばれる解釈可能なグラフ学習フレームワークを導入する。このフレームワークは、構造的および効果的なネットワーク間の動的相互作用を捉えることを目的とした、特異的に設計されたノード埋め込み層を含んでいる。
論文参考訳（メタデータ） (2024-05-21T20:37:07Z)
TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition [0.951828574518325]
本稿では,チャネルレベルとトークンレベルの相互通信を統合したマルチモーダル融合の包括的視点を提案する。具体的には,Token-chAnnel Compound (TACO) Cross Attentionというクロスアテンションモジュールを導入する。また,脳波信号チャネルの空間分布に関する情報を保存するための2次元位置符号化手法を提案する。
論文参考訳（メタデータ） (2023-06-23T16:28:12Z)
Unsupervised Domain Transfer with Conditional Invertible Neural Networks [83.90291882730925]
条件付き可逆ニューラルネットワーク(cINN)に基づくドメイン転送手法を提案する。提案手法は本質的に,その可逆的アーキテクチャによるサイクル一貫性を保証し,ネットワークトレーニングを最大限効率的に行うことができる。提案手法は,2つの下流分類タスクにおいて,現実的なスペクトルデータの生成を可能にし,その性能を向上する。
論文参考訳（メタデータ） (2023-03-17T18:00:27Z)
Deep Representations for Time-varying Brain Datasets [4.129225533930966]
本稿では、領域マップされたfMRIシーケンスと構造接続性の両方を入力として組み込んだ効率的なグラフニューラルネットワークモデルを構築する。サンプルレベルの適応的隣接行列を学習することで、潜伏する脳のダイナミクスのよい表現を見つけ出す。これらのモジュールは容易に適応でき、神経科学領域以外の用途にも有用である可能性がある。
論文参考訳（メタデータ） (2022-05-23T21:57:31Z)
Multimodal Emotion Recognition using Transfer Learning from Speaker Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文参考訳（メタデータ） (2022-02-16T00:23:42Z)
Group Gated Fusion on Attention-based Bidirectional Alignment for Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。 LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文参考訳（メタデータ） (2022-01-17T09:46:59Z)
Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。 2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。 3つの大規模データセットについて広範な実験を行った。
論文参考訳（メタデータ） (2021-08-10T09:25:07Z)
A Two-stream Neural Network for Pose-based Hand Gesture Recognition [23.50938160992517]
近年,ポーズに基づくジェスチャー認識が広く研究されている。本稿では,グラフ畳み込みネットワーク(sagcn)を1ストリームとする2ストリームニューラルネットワークを提案する。残差接続強化Bi-IndRNNは、時間モデリングのための双方向処理機能を備えたIndRNNを拡張する。
論文参考訳（メタデータ） (2021-01-22T03:22:26Z)
Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-07-31T03:48:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。