論文の概要: A Comparative Study of Data Augmentation Techniques for Deep Learning
Based Emotion Recognition
- arxiv url: http://arxiv.org/abs/2211.05047v1
- Date: Wed, 9 Nov 2022 17:27:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 17:52:20.066747
- Title: A Comparative Study of Data Augmentation Techniques for Deep Learning
Based Emotion Recognition
- Title(参考訳): 深層学習に基づく感情認識のためのデータ強化手法の比較検討
- Authors: Ravi Shankar, Abdouh Harouna Kenfack, Arjun Somayazulu, Archana
Venkataraman
- Abstract要約: 感情認識のための一般的なディープラーニングアプローチを包括的に評価する。
音声信号の長距離依存性が感情認識に重要であることを示す。
スピード/レート向上は、モデル間で最も堅牢なパフォーマンス向上を提供する。
- 参考スコア(独自算出の注目度): 11.928873764689458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated emotion recognition in speech is a long-standing problem. While
early work on emotion recognition relied on hand-crafted features and simple
classifiers, the field has now embraced end-to-end feature learning and
classification using deep neural networks. In parallel to these models,
researchers have proposed several data augmentation techniques to increase the
size and variability of existing labeled datasets. Despite many seminal
contributions in the field, we still have a poor understanding of the interplay
between the network architecture and the choice of data augmentation. Moreover,
only a handful of studies demonstrate the generalizability of a particular
model across multiple datasets, which is a prerequisite for robust real-world
performance. In this paper, we conduct a comprehensive evaluation of popular
deep learning approaches for emotion recognition. To eliminate bias, we fix the
model architectures and optimization hyperparameters using the VESUS dataset
and then use repeated 5-fold cross validation to evaluate the performance on
the IEMOCAP and CREMA-D datasets. Our results demonstrate that long-range
dependencies in the speech signal are critical for emotion recognition and that
speed/rate augmentation offers the most robust performance gain across models.
- Abstract(参考訳): 音声における感情の自動認識は長年の課題である。
感情認識に関する初期の研究は手作りの特徴と単純な分類器に依存していたが、この分野は現在、ディープニューラルネットワークを用いたエンドツーエンドの機能学習と分類を受け入れている。
これらのモデルと並行して、研究者は既存のラベル付きデータセットのサイズと可変性を高めるためのいくつかのデータ拡張技術を提案した。
この分野における多くのセミナルな貢献にもかかわらず、ネットワークアーキテクチャとデータ拡張の選択の間の相互作用についてはまだ理解が不十分です。
さらに、ロバストな実世界性能の前提条件である複数のデータセットにまたがる特定のモデルの一般化性を示す研究はごくわずかである。
本稿では,感情認識のための一般的な深層学習手法を包括的に評価する。
バイアスを回避するため,VESUSデータセットを用いてモデルアーキテクチャの修正とハイパーパラメータの最適化を行い,IEMOCAPとCREMA-Dデータセットのパフォーマンスを評価するために,繰り返し5倍のクロスバリデーションを使用する。
以上の結果から,音声信号の長距離依存性は感情認識にとって重要であり,速度/速度の増大はモデル間で最も堅牢な性能向上をもたらすことが示された。
関連論文リスト
- A Hybrid End-to-End Spatio-Temporal Attention Neural Network with
Graph-Smooth Signals for EEG Emotion Recognition [1.6328866317851187]
本稿では,ネットワーク・テンポラルエンコーディングと繰り返しアテンションブロックのハイブリッド構造を用いて,解釈可能な表現を取得するディープニューラルネットワークを提案する。
提案したアーキテクチャは、公開されているDEAPデータセット上での感情分類の最先端結果を上回ることを実証する。
論文 参考訳(メタデータ) (2023-07-06T15:35:14Z) - Synthetic-to-Real Domain Adaptation for Action Recognition: A Dataset and Baseline Performances [76.34037366117234]
ロボット制御ジェスチャー(RoCoG-v2)と呼ばれる新しいデータセットを導入する。
データセットは7つのジェスチャークラスの実ビデオと合成ビデオの両方で構成されている。
我々は,最先端の行動認識とドメイン適応アルゴリズムを用いて結果を示す。
論文 参考訳(メタデータ) (2023-03-17T23:23:55Z) - Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。
同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。
我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文 参考訳(メタデータ) (2023-01-30T12:38:31Z) - Machine Learning For Classification Of Antithetical Emotional States [1.1602089225841632]
本研究は,DEAPデータセット上でのベースライン機械学習分類器の性能を解析する。
ディープラーニングアーキテクチャによるパフォーマンス向上を活用して、最先端に匹敵する結果を提供する。
論文 参考訳(メタデータ) (2022-09-06T06:54:33Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Facial Emotion Recognition using Deep Residual Networks in Real-World
Environments [5.834678345946704]
そこで本研究では,Wild内および大規模に収集されたビデオデータセットに基づいて訓練された顔特徴抽出モデルを提案する。
データセットは100万のラベル付きフレームと2,616万の被験者で構成されている。
感情認識領域において時間情報は重要であるため、LSTM細胞を用いてデータの時間的ダイナミクスを捉える。
論文 参考訳(メタデータ) (2021-11-04T10:08:22Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Towards Unbiased Visual Emotion Recognition via Causal Intervention [63.74095927462]
本稿では,データセットバイアスによる負の効果を軽減するために,新しい感情認識ネットワーク(IERN)を提案する。
IERNの有効性を検証する一連の設計されたテストと、3つの感情ベンチマークの実験は、IERNが他の最先端のアプローチよりも優れていることを示した。
論文 参考訳(メタデータ) (2021-07-26T10:40:59Z) - Continuous Emotion Recognition via Deep Convolutional Autoencoder and
Support Vector Regressor [70.2226417364135]
マシンはユーザの感情状態を高い精度で認識できることが不可欠である。
ディープニューラルネットワークは感情を認識する上で大きな成功を収めている。
表情認識に基づく連続的感情認識のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-01-31T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。