論文の概要: Leveraging Recent Advances in Deep Learning for Audio-Visual Emotion
Recognition
- arxiv url: http://arxiv.org/abs/2103.09154v1
- Date: Tue, 16 Mar 2021 15:49:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 16:21:00.413758
- Title: Leveraging Recent Advances in Deep Learning for Audio-Visual Emotion
Recognition
- Title(参考訳): 深層学習の進歩と音声・視覚的感情認識
- Authors: Liam Schoneveld and Alice Othmani and Hazem Abdelkawy
- Abstract要約: 人間の行動分析のために, 自発的なマルチモーダル感情認識が広く研究されている。
視聴覚感情認識のための深層学習に基づく新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 2.1485350418225244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotional expressions are the behaviors that communicate our emotional state
or attitude to others. They are expressed through verbal and non-verbal
communication. Complex human behavior can be understood by studying physical
features from multiple modalities; mainly facial, vocal and physical gestures.
Recently, spontaneous multi-modal emotion recognition has been extensively
studied for human behavior analysis. In this paper, we propose a new deep
learning-based approach for audio-visual emotion recognition. Our approach
leverages recent advances in deep learning like knowledge distillation and
high-performing deep architectures. The deep feature representations of the
audio and visual modalities are fused based on a model-level fusion strategy. A
recurrent neural network is then used to capture the temporal dynamics. Our
proposed approach substantially outperforms state-of-the-art approaches in
predicting valence on the RECOLA dataset. Moreover, our proposed visual facial
expression feature extraction network outperforms state-of-the-art results on
the AffectNet and Google Facial Expression Comparison datasets.
- Abstract(参考訳): 感情表現とは、感情の状態や態度を他人に伝える行動である。
言語的・非言語的コミュニケーションによって表現される。
複雑な人間の行動は、複数の様相(主に顔、声、身体のジェスチャー)から物理的特徴を研究することで理解できる。
近年,人間の行動分析において,自発性マルチモーダル感情認識が広く研究されている。
本稿では,音声・視覚感情認識のための深層学習に基づく新しいアプローチを提案する。
我々のアプローチは、知識蒸留や高い性能の深層建築のような、近年のディープラーニングの進歩を活用している。
オーディオと視覚的モダリティの深い特徴表現は、モデルレベルの融合戦略に基づいて融合される。
次に、繰り返しニューラルネットワークを使用して、時間的ダイナミクスをキャプチャする。
提案手法は,recolaデータセットのヴァレンス予測における最先端手法を実質的に上回っている。
さらに,提案する視覚表情特徴抽出ネットワークは,AffectNetとGoogle Facial Expression Comparisonデータセットの最先端結果よりも優れていた。
関連論文リスト
- Emotion Recognition from the perspective of Activity Recognition [0.0]
人間の感情状態、行動、反応を現実世界の環境に適応させることは、潜伏した連続した次元を用いて達成できる。
感情認識システムが現実のモバイルおよびコンピューティングデバイスにデプロイされ統合されるためには、世界中の収集されたデータを考慮する必要がある。
本稿では,注目機構を備えた新しい3ストリームエンドツーエンドのディープラーニング回帰パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-24T18:53:57Z) - Enhancing the Prediction of Emotional Experience in Movies using Deep
Neural Networks: The Significance of Audio and Language [0.0]
本稿では、映画視聴中に経験した人間の感情の範囲を正確に予測するために、ディープニューラルネットワークモデルを活用することに焦点を当てる。
この設定では、経験的感情に大きく影響を与える3つの明確な入力モダリティが存在する:RGBビデオフレームから派生した視覚的手がかり、音声、音声、音楽を含む聴覚的要素、アクターの対話を含む言語的要素である。
論文 参考訳(メタデータ) (2023-06-17T17:40:27Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Multi-Cue Adaptive Emotion Recognition Network [4.570705738465714]
適応型マルチキューに基づく感情認識のための新しい深層学習手法を提案する。
提案手法とCAER-Sデータセットの最先端手法を比較した。
論文 参考訳(メタデータ) (2021-11-03T15:08:55Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Stimuli-Aware Visual Emotion Analysis [75.68305830514007]
本稿では,刺激選択,特徴抽出,感情予測の3段階からなる刺激認識型視覚感情分析(VEA)手法を提案する。
我々の知る限りでは、エンド・ツー・エンドのネットワークでVEAに刺激選択プロセスを導入するのは初めてです。
実験により、提案手法は、4つの公的な視覚的感情データセットに対する最先端のアプローチよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2021-09-04T08:14:52Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - Temporal aggregation of audio-visual modalities for emotion recognition [0.5352699766206808]
本研究では,時間的オフセットの異なる時間的オフセットと時間的ウィンドウからの音声・視覚的モダリティを組み合わせた感情認識のためのマルチモーダル融合手法を提案する。
提案手法は,文献と人間の精度評価から,他の手法よりも優れている。
論文 参考訳(メタデータ) (2020-07-08T18:44:15Z) - Emotion Recognition System from Speech and Visual Information based on
Convolutional Neural Networks [6.676572642463495]
本研究では,感情を高精度かつリアルタイムに認識できるシステムを提案する。
音声認識システムの精度を高めるため、音声データも分析し、両情報源から得られる情報を融合する。
論文 参考訳(メタデータ) (2020-02-29T22:09:46Z) - Continuous Emotion Recognition via Deep Convolutional Autoencoder and
Support Vector Regressor [70.2226417364135]
マシンはユーザの感情状態を高い精度で認識できることが不可欠である。
ディープニューラルネットワークは感情を認識する上で大きな成功を収めている。
表情認識に基づく連続的感情認識のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-01-31T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。