Fugu-MT 論文翻訳(概要): Deep Auto-Encoders with Sequential Learning for Multimodal Dimensional Emotion Recognition

論文の概要: Deep Auto-Encoders with Sequential Learning for Multimodal Dimensional Emotion Recognition

arxiv url: http://arxiv.org/abs/2004.13236v1
Date: Tue, 28 Apr 2020 01:25:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-08 23:18:43.470958
Title: Deep Auto-Encoders with Sequential Learning for Multimodal Dimensional Emotion Recognition
Title（参考訳）: 多次元感情認識のための逐次学習型ディープオートエンコーダ
Authors: Dung Nguyen, Duc Thanh Nguyen, Rui Zeng, Thanh Thi Nguyen, Son N. Tran, Thin Nguyen, Sridha Sridharan, and Clinton Fookes
Abstract要約: 本稿では、2ストリームのオートエンコーダと、感情認識のための長期記憶からなる新しいディープニューラルネットワークアーキテクチャを提案する。野生データセットRECOLAにおけるマルチモーダル感情に関する広範な実験を行った。実験の結果,提案手法は最先端の認識性能を達成し,既存のスキームをはるかに上回っていることがわかった。
参考スコア（独自算出の注目度）: 38.350188118975616
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal dimensional emotion recognition has drawn a great attention from the affective computing community and numerous schemes have been extensively investigated, making a significant progress in this area. However, several questions still remain unanswered for most of existing approaches including: (i) how to simultaneously learn compact yet representative features from multimodal data, (ii) how to effectively capture complementary features from multimodal streams, and (iii) how to perform all the tasks in an end-to-end manner. To address these challenges, in this paper, we propose a novel deep neural network architecture consisting of a two-stream auto-encoder and a long short term memory for effectively integrating visual and audio signal streams for emotion recognition. To validate the robustness of our proposed architecture, we carry out extensive experiments on the multimodal emotion in the wild dataset: RECOLA. Experimental results show that the proposed method achieves state-of-the-art recognition performance and surpasses existing schemes by a significant margin.
Abstract（参考訳）: マルチモーダル次元感情認識(multimodal dimensional emotion recognition)は、情緒的コンピューティングコミュニティから大きな注目を集め、多くのスキームが広範囲に研究され、この分野で大きな進歩を遂げた。しかし、既存のアプローチの多くについては、まだいくつかの疑問が残されている。 i)マルチモーダルデータからコンパクトかつ代表的な特徴を同時に学習する方法 (ii)マルチモーダルストリームから相補的な機能を効果的に捉える方法 (iii)エンドツーエンドですべてのタスクを実行する方法。本稿では,この課題に対処するために,2ストリームの自動エンコーダと,感情認識のための視覚信号と音声信号ストリームを効果的に統合する長期記憶を備えた,新しいディープニューラルネットワークアーキテクチャを提案する。提案アーキテクチャのロバスト性を検証するため,野生データセットRECOLAにおけるマルチモーダル感情に関する広範な実験を行った。実験の結果,提案手法は最先端の認識性能を達成し,既存の手法を大幅に超えていることがわかった。

関連論文リスト

A Novel Approach to for Multimodal Emotion Recognition : Multimodal semantic information fusion [3.1409950035735914]
本稿では,コントラスト学習と視覚的シーケンス圧縮を統合した新しいマルチモーダル感情認識手法であるDeepMSI-MERを提案する。 2つの公開データセット(IEMOCAPとMELD)の実験結果から、DeepMSI-MERは感情認識の精度と堅牢性を大幅に向上することが示された。
論文参考訳（メタデータ） (2025-02-12T17:07:43Z)
WavFusion: Towards wav2vec 2.0 Multimodal Speech Emotion Recognition [2.3367170233149324]
We propose WavFusion, a multimodal speech emotion recognition framework。 WavFusionは、効果的なマルチモーダル融合、モダリティ、差別的表現学習における重要な研究課題に対処する。本研究は, 精度の高いマルチモーダルSERにおいて, ニュアンスな相互モーダル相互作用を捉え, 識別表現を学習することの重要性を強調した。
論文参考訳（メタデータ） (2024-12-07T06:43:39Z)
EEG-based Multimodal Representation Learning for Emotion Recognition [26.257531037300325]
本稿では,ビデオ,画像,音声などの従来のモダリティだけでなく,脳波データも組み込んだ新しいマルチモーダルフレームワークを提案する。本フレームワークは,様々な入力サイズを柔軟に扱えるように設計されている。
論文参考訳（メタデータ） (2024-10-29T01:35:17Z)
Apprenticeship-Inspired Elegance: Synergistic Knowledge Distillation Empowers Spiking Neural Networks for Efficient Single-Eye Emotion Recognition [53.359383163184425]
本稿では, 効率的な単一眼球運動認識タスクに適した, マルチモーダル・シナジスティック知識蒸留方式を提案する。この方法では、軽量で単調な学生スパイクニューラルネットワーク(SNN)が、イベントフレームマルチモーダル教師ネットワークから豊富な知識を抽出することができる。
論文参考訳（メタデータ） (2024-06-20T07:24:47Z)
A Multi-Task, Multi-Modal Approach for Predicting Categorical and Dimensional Emotions [0.0]
分類的・次元的な感情を予測するマルチタスク・マルチモーダルシステムを提案する。その結果,2種類の感情の相互規則化の重要性が強調された。
論文参考訳（メタデータ） (2023-12-31T16:48:03Z)
Multimodal deep representation learning for quantum cross-platform verification [60.01590250213637]
初期の量子コンピューティングの領域において重要な取り組みであるクロスプラットフォーム検証は、同一のアルゴリズムを実行する2つの不完全な量子デバイスとの類似性を特徴づけようと試みている。本稿では,この課題におけるデータの形式化が2つの異なるモダリティを具現化する,革新的なマルチモーダル学習手法を提案する。我々はこれらのモダリティから知識を独立して抽出するマルチモーダルニューラルネットワークを考案し、続いて融合操作により包括的データ表現を生成する。
論文参考訳（メタデータ） (2023-11-07T04:35:03Z)
EMERSK -- Explainable Multimodal Emotion Recognition with Situational Knowledge [0.0]
状況知識を用いた説明可能なマルチモーダル感情認識(EMERSK)を提案する。 EMERSKは視覚情報を用いた人間の感情認識と説明のための汎用システムである。本システムは, 表情, 姿勢, 歩行などの複数のモーダルを柔軟かつモジュラーな方法で処理することができる。
論文参考訳（メタデータ） (2023-06-14T17:52:37Z)
FV2ES: A Fully End2End Multimodal System for Fast Yet Effective Video Emotion Recognition Inference [6.279057784373124]
本稿では,高速かつ効果的な認識推定のためのフルマルチモーダル映像合成システム(FV2ES)を設計する。音響スペクトルに対する階層的アテンション法の適用は、音響モーダルの限られた寄与によって破られる。整列型マルチモーダル学習モデルへのデータ前処理のさらなる統合により、計算コストとストレージスペースが大幅に削減される。
論文参考訳（メタデータ） (2022-09-21T08:05:26Z)
MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文参考訳（メタデータ） (2021-10-27T09:57:00Z)
Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文参考訳（メタデータ） (2020-08-21T10:45:09Z)
Deep Multimodal Neural Architecture Search [178.35131768344246]
様々なマルチモーダル学習タスクのための一般化された深層マルチモーダルニューラルアーキテクチャサーチ(MMnas)フレームワークを考案する。マルチモーダル入力が与えられたら、まずプリミティブ演算のセットを定義し、その後、ディープエンコーダ-デコーダベースの統一バックボーンを構築する。統合されたバックボーンの上にタスク固有のヘッドをアタッチして、異なるマルチモーダル学習タスクに取り組む。
論文参考訳（メタデータ） (2020-04-25T07:00:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。