論文の概要: Deep Auto-Encoders with Sequential Learning for Multimodal Dimensional
Emotion Recognition
- arxiv url: http://arxiv.org/abs/2004.13236v1
- Date: Tue, 28 Apr 2020 01:25:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 23:18:43.470958
- Title: Deep Auto-Encoders with Sequential Learning for Multimodal Dimensional
Emotion Recognition
- Title(参考訳): 多次元感情認識のための逐次学習型ディープオートエンコーダ
- Authors: Dung Nguyen, Duc Thanh Nguyen, Rui Zeng, Thanh Thi Nguyen, Son N.
Tran, Thin Nguyen, Sridha Sridharan, and Clinton Fookes
- Abstract要約: 本稿では、2ストリームのオートエンコーダと、感情認識のための長期記憶からなる新しいディープニューラルネットワークアーキテクチャを提案する。
野生データセットRECOLAにおけるマルチモーダル感情に関する広範な実験を行った。
実験の結果,提案手法は最先端の認識性能を達成し,既存のスキームをはるかに上回っていることがわかった。
- 参考スコア(独自算出の注目度): 38.350188118975616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal dimensional emotion recognition has drawn a great attention from
the affective computing community and numerous schemes have been extensively
investigated, making a significant progress in this area. However, several
questions still remain unanswered for most of existing approaches including:
(i) how to simultaneously learn compact yet representative features from
multimodal data, (ii) how to effectively capture complementary features from
multimodal streams, and (iii) how to perform all the tasks in an end-to-end
manner. To address these challenges, in this paper, we propose a novel deep
neural network architecture consisting of a two-stream auto-encoder and a long
short term memory for effectively integrating visual and audio signal streams
for emotion recognition. To validate the robustness of our proposed
architecture, we carry out extensive experiments on the multimodal emotion in
the wild dataset: RECOLA. Experimental results show that the proposed method
achieves state-of-the-art recognition performance and surpasses existing
schemes by a significant margin.
- Abstract(参考訳): マルチモーダル次元感情認識(multimodal dimensional emotion recognition)は、情緒的コンピューティングコミュニティから大きな注目を集め、多くのスキームが広範囲に研究され、この分野で大きな進歩を遂げた。
しかし、既存のアプローチの多くについては、まだいくつかの疑問が残されている。
i)マルチモーダルデータからコンパクトかつ代表的な特徴を同時に学習する方法
(ii)マルチモーダルストリームから相補的な機能を効果的に捉える方法
(iii)エンドツーエンドですべてのタスクを実行する方法。
本稿では,この課題に対処するために,2ストリームの自動エンコーダと,感情認識のための視覚信号と音声信号ストリームを効果的に統合する長期記憶を備えた,新しいディープニューラルネットワークアーキテクチャを提案する。
提案アーキテクチャのロバスト性を検証するため,野生データセットRECOLAにおけるマルチモーダル感情に関する広範な実験を行った。
実験の結果,提案手法は最先端の認識性能を達成し,既存の手法を大幅に超えていることがわかった。
関連論文リスト
- EEG-based Multimodal Representation Learning for Emotion Recognition [26.257531037300325]
本稿では,ビデオ,画像,音声などの従来のモダリティだけでなく,脳波データも組み込んだ新しいマルチモーダルフレームワークを提案する。
本フレームワークは,様々な入力サイズを柔軟に扱えるように設計されている。
論文 参考訳(メタデータ) (2024-10-29T01:35:17Z) - Apprenticeship-Inspired Elegance: Synergistic Knowledge Distillation Empowers Spiking Neural Networks for Efficient Single-Eye Emotion Recognition [53.359383163184425]
本稿では, 効率的な単一眼球運動認識タスクに適した, マルチモーダル・シナジスティック知識蒸留方式を提案する。
この方法では、軽量で単調な学生スパイクニューラルネットワーク(SNN)が、イベントフレームマルチモーダル教師ネットワークから豊富な知識を抽出することができる。
論文 参考訳(メタデータ) (2024-06-20T07:24:47Z) - A Multi-Task, Multi-Modal Approach for Predicting Categorical and
Dimensional Emotions [0.0]
分類的・次元的な感情を予測するマルチタスク・マルチモーダルシステムを提案する。
その結果,2種類の感情の相互規則化の重要性が強調された。
論文 参考訳(メタデータ) (2023-12-31T16:48:03Z) - Multimodal deep representation learning for quantum cross-platform
verification [60.01590250213637]
初期の量子コンピューティングの領域において重要な取り組みであるクロスプラットフォーム検証は、同一のアルゴリズムを実行する2つの不完全な量子デバイスとの類似性を特徴づけようと試みている。
本稿では,この課題におけるデータの形式化が2つの異なるモダリティを具現化する,革新的なマルチモーダル学習手法を提案する。
我々はこれらのモダリティから知識を独立して抽出するマルチモーダルニューラルネットワークを考案し、続いて融合操作により包括的データ表現を生成する。
論文 参考訳(メタデータ) (2023-11-07T04:35:03Z) - EMERSK -- Explainable Multimodal Emotion Recognition with Situational
Knowledge [0.0]
状況知識を用いた説明可能なマルチモーダル感情認識(EMERSK)を提案する。
EMERSKは視覚情報を用いた人間の感情認識と説明のための汎用システムである。
本システムは, 表情, 姿勢, 歩行などの複数のモーダルを柔軟かつモジュラーな方法で処理することができる。
論文 参考訳(メタデータ) (2023-06-14T17:52:37Z) - FV2ES: A Fully End2End Multimodal System for Fast Yet Effective Video
Emotion Recognition Inference [6.279057784373124]
本稿では,高速かつ効果的な認識推定のためのフルマルチモーダル映像合成システム(FV2ES)を設計する。
音響スペクトルに対する階層的アテンション法の適用は、音響モーダルの限られた寄与によって破られる。
整列型マルチモーダル学習モデルへのデータ前処理のさらなる統合により、計算コストとストレージスペースが大幅に削減される。
論文 参考訳(メタデータ) (2022-09-21T08:05:26Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - Deep Multimodal Neural Architecture Search [178.35131768344246]
様々なマルチモーダル学習タスクのための一般化された深層マルチモーダルニューラルアーキテクチャサーチ(MMnas)フレームワークを考案する。
マルチモーダル入力が与えられたら、まずプリミティブ演算のセットを定義し、その後、ディープエンコーダ-デコーダベースの統一バックボーンを構築する。
統合されたバックボーンの上にタスク固有のヘッドをアタッチして、異なるマルチモーダル学習タスクに取り組む。
論文 参考訳(メタデータ) (2020-04-25T07:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。