論文の概要: Hybrid Mutimodal Fusion for Dimensional Emotion Recognition
- arxiv url: http://arxiv.org/abs/2110.08495v1
- Date: Sat, 16 Oct 2021 06:57:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 16:36:07.540899
- Title: Hybrid Mutimodal Fusion for Dimensional Emotion Recognition
- Title(参考訳): 次元感情認識のためのハイブリッドミューティモダル融合
- Authors: Ziyu Ma, Fuyan Ma, Bin Sun, Shutao Li
- Abstract要約: 我々は,Multimodal Sentiment Challenge (MuSe) 2021 の MuSe-Stress sub-challenge と MuSe-Physio sub-challenge のソリューションを幅広く紹介する。
1)音声・視覚的特徴と生体信号的特徴は感情状態認識に使用される。
MuSe-Physio sub-challengeでは、まず複数のモーダルから音声・視覚的特徴と生体信号的特徴を抽出する。
- 参考スコア(独自算出の注目度): 20.512310175499664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we extensively present our solutions for the MuSe-Stress
sub-challenge and the MuSe-Physio sub-challenge of Multimodal Sentiment
Challenge (MuSe) 2021. The goal of MuSe-Stress sub-challenge is to predict the
level of emotional arousal and valence in a time-continuous manner from
audio-visual recordings and the goal of MuSe-Physio sub-challenge is to predict
the level of psycho-physiological arousal from a) human annotations fused with
b) galvanic skin response (also known as Electrodermal Activity (EDA)) signals
from the stressed people. The Ulm-TSST dataset which is a novel subset of the
audio-visual textual Ulm-Trier Social Stress dataset that features German
speakers in a Trier Social Stress Test (TSST) induced stress situation is used
in both sub-challenges. For the MuSe-Stress sub-challenge, we highlight our
solutions in three aspects: 1) the audio-visual features and the bio-signal
features are used for emotional state recognition. 2) the Long Short-Term
Memory (LSTM) with the self-attention mechanism is utilized to capture complex
temporal dependencies within the feature sequences. 3) the late fusion strategy
is adopted to further boost the model's recognition performance by exploiting
complementary information scattered across multimodal sequences. Our proposed
model achieves CCC of 0.6159 and 0.4609 for valence and arousal respectively on
the test set, which both rank in the top 3. For the MuSe-Physio sub-challenge,
we first extract the audio-visual features and the bio-signal features from
multiple modalities. Then, the LSTM module with the self-attention mechanism,
and the Gated Convolutional Neural Networks (GCNN) as well as the LSTM network
are utilized for modeling the complex temporal dependencies in the sequence.
Finally, the late fusion strategy is used. Our proposed method also achieves
CCC of 0.5412 on the test set, which ranks in the top 3.
- Abstract(参考訳): 本稿では,Multimodal Sentiment Challenge (MuSe) 2021のMuSe-Stress sub-challengeとMuSe-Physio sub-challengeのソリューションを幅広く紹介する。
MuSe-Stress sub-challengeの目標は、音声-視覚的記録から、感情的覚醒とヴァレンスを時間連続的に予測することであり、MuSe-Physio sub-challengeの目標は、心理生理的覚醒のレベルを予測することである。
a)人間の注釈が混ざり合っていること
b) ストレスを受けた人々からのガルバニック皮膚反応(electrormal activity(eda)とも呼ばれる)
音声-視覚テキストUlm-Trier Social Stressデータセットの新たなサブセットであるUlm-TSSTデータセットは、Trier Social Stress Test (TSST)誘導ストレス状況において、ドイツ話者を特徴付ける。
MuSe-Stressのサブチャレンジでは、ソリューションを3つの側面で強調する。
1)音声・視覚的特徴と生体信号的特徴は感情状態認識に使用される。
2)自己アテンション機構を備えたLong Short-Term Memory(LSTM)を用いて,特徴系列内の複雑な時間的依存関係をキャプチャする。
3)マルチモーダルシーケンスに散在する補完的情報を活用し,モデルの認識性能をさらに高めるために,後期融合戦略が採用されている。
提案モデルでは,各テストセットでそれぞれ0.6159と0.4609のCCCを達成し,それぞれ上位3位にランク付けした。
MuSe-Physio sub-challengeでは、まず複数のモードから音声視覚特徴と生体信号特徴を抽出する。
次に、自己アテンション機構を備えたLSTMモジュールとGCNNとLSTMネットワークを用いて、シーケンス内の複雑な時間的依存関係をモデル化する。
最後に、後期核融合戦略を用いる。
提案手法は,テストセットで0.5412のCCを達成し,上位3位にランク付けする。
関連論文リスト
- RigLSTM: Recurrent Independent Grid LSTM for Generalizable Sequence
Learning [75.61681328968714]
本稿では,対象タスクの基盤となるモジュール構造を利用するために,リカレントな独立したGrid LSTM(RigLSTM)を提案する。
本モデルでは, セル選択, 入力特徴選択, 隠れ状態選択, ソフト状態更新を採用し, より優れた一般化を実現する。
論文 参考訳(メタデータ) (2023-11-03T07:40:06Z) - The MuSe 2023 Multimodal Sentiment Analysis Challenge: Mimicked
Emotions, Cross-Cultural Humour, and Personalisation [69.13075715686622]
MuSe 2023は、現代の3つの異なるマルチモーダル感情と感情分析の問題に対処する共有タスクの集合である。
MuSe 2023は、さまざまな研究コミュニティから幅広いオーディエンスを集めようとしている。
論文 参考訳(メタデータ) (2023-05-05T08:53:57Z) - A Multimodal Approach for Dementia Detection from Spontaneous Speech
with Tensor Fusion Layer [0.0]
アルツハイマー病(英語: Alzheimer's disease、AD)は、記憶、思考能力、精神能力に影響を及ぼす進行性神経疾患である。
我々は、エンドツーエンドのトレーニング可能な方法でトレーニングし、モーダル間相互作用とモーダル間相互作用をキャプチャできるディープニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-11-08T16:43:58Z) - MAST: Multiscale Audio Spectrogram Transformers [53.06337011259031]
音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。
実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-02T23:34:12Z) - Hybrid Multimodal Feature Extraction, Mining and Fusion for Sentiment
Analysis [31.097398034974436]
我々は,MuSe-Humor, MuSe-Reaction, MuSe-Stress Sub-challengesを含む2022年度のMultimodal Sentiment Analysis Challengeのソリューションを提案する。
MuSe 2022はユーモアの検出、感情反応、さまざまなモダリティとデータセットを活用するマルチモーダルな感情ストレスに焦点を当てている。
論文 参考訳(メタデータ) (2022-08-05T09:07:58Z) - LMR-CBT: Learning Modality-fused Representations with CB-Transformer for
Multimodal Emotion Recognition from Unaligned Multimodal Sequences [5.570499497432848]
マルチモーダル感情認識のためのCB-Transformer (LMR-CBT) を用いて, モダリティ融合表現を学習するための効率的なニューラルネットワークを提案する。
3つの挑戦的なデータセット上で、単語整列と非整列の実験を行います。
論文 参考訳(メタデータ) (2021-12-03T03:43:18Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z) - Spatial-Temporal Multi-Cue Network for Continuous Sign Language
Recognition [141.24314054768922]
本稿では、視覚に基づくシーケンス学習問題を解決するために、時空間マルチキュー(STMC)ネットワークを提案する。
有効性を検証するため、3つの大規模CSLRベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-02-08T15:38:44Z) - $M^3$T: Multi-Modal Continuous Valence-Arousal Estimation in the Wild [86.40973759048957]
本報告では、ABAW(Affective Behavior Analysis in-the-wild)チャレンジの価-覚醒的評価トラックへの提案に基づくマルチモーダルマルチタスク(M3$T)アプローチについて述べる。
提案したM3$Tフレームワークでは,ビデオの視覚的特徴とオーディオトラックの音響的特徴の両方を融合させて,有声度と覚醒度を推定する。
ABAW が提供する検証セットに対して,M3$T フレームワークを評価し,ベースライン法を著しく上回る性能を示した。
論文 参考訳(メタデータ) (2020-02-07T18:53:13Z) - The Deterministic plus Stochastic Model of the Residual Signal and its
Applications [13.563526970105988]
この原稿は残留信号の決定論的プラスモデル(DSM)を提示する。
次に,2分野の音声処理におけるDSMの適用性について検討した。
論文 参考訳(メタデータ) (2019-12-29T07:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。