論文の概要: Speech Emotion Recognition with Multiscale Area Attention and Data
Augmentation
- arxiv url: http://arxiv.org/abs/2102.01813v1
- Date: Wed, 3 Feb 2021 00:39:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 17:02:44.027066
- Title: Speech Emotion Recognition with Multiscale Area Attention and Data
Augmentation
- Title(参考訳): マルチスケール領域アテンションとデータ拡張による音声感情認識
- Authors: Mingke Xu, Fan Zhang, Xiaodong Cui, Wei Zhang
- Abstract要約: 深部畳み込みニューラルネットワークにおいて,様々な粒度の感情特性に対応するために,マルチスケールのエリアアテンションを適用した。
データ疎度に対処するため,声道長の摂動を伴うデータ拡張を行う。
Interactive Emotional Dyadic Motion Captureデータセットを用いて実験を行った。
- 参考スコア(独自算出の注目度): 21.163871587810615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Speech Emotion Recognition (SER), emotional characteristics often appear
in diverse forms of energy patterns in spectrograms. Typical attention neural
network classifiers of SER are usually optimized on a fixed attention
granularity. In this paper, we apply multiscale area attention in a deep
convolutional neural network to attend emotional characteristics with varied
granularities and therefore the classifier can benefit from an ensemble of
attentions with different scales. To deal with data sparsity, we conduct data
augmentation with vocal tract length perturbation (VTLP) to improve the
generalization capability of the classifier. Experiments are carried out on the
Interactive Emotional Dyadic Motion Capture (IEMOCAP) dataset. We achieved
79.34% weighted accuracy (WA) and 77.54% unweighted accuracy (UA), which, to
the best of our knowledge, is the state of the art on this dataset.
- Abstract(参考訳): 音声感情認識(SER)では、感情的特徴はしばしばスペクトルにおけるエネルギーパターンの多様な形で現れる。
SERの典型的な注意ニューラルネットワーク分類器は、通常、固定注意粒度で最適化される。
本稿では, 深部畳み込みニューラルネットワークにおいて, 様々な粒度の感情特性に対応するために, マルチスケール領域の注意を応用し, 異なるスケールの注意の集まりから, 分類器の利点を享受する。
データ疎度に対処するため,声道長摂動(VTLP)を用いたデータ拡張を行い,分類器の一般化能力を向上させる。
実験は、Interactive Emotional Dyadic Motion Capture (IEMOCAP)データセット上で実施される。
私たちは79.34%の重み付き精度(WA)と77.54%の非重み付き精度(UA)を達成しました。
関連論文リスト
- Smile upon the Face but Sadness in the Eyes: Emotion Recognition based on Facial Expressions and Eye Behaviors [63.194053817609024]
視覚行動は、視覚行動支援型マルチモーダル感情認識データセットを作成するための重要な感情的手がかりとなる。
EMERデータセットに感情認識(ER)と表情認識(FER)の両方のアノテーションを初めて提供する。
具体的には、ERとFERの両方のパフォーマンスを同時に向上する新しいEMERTアーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-11-08T04:53:55Z) - Deep Imbalanced Learning for Multimodal Emotion Recognition in
Conversations [15.705757672984662]
会話におけるマルチモーダル感情認識(MERC)は、マシンインテリジェンスにとって重要な開発方向である。
MERCのデータの多くは自然に感情カテゴリーの不均衡な分布を示しており、研究者は感情認識に対する不均衡なデータの負の影響を無視している。
生データにおける感情カテゴリーの不均衡分布に対処するクラス境界拡張表現学習(CBERL)モデルを提案する。
我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。
論文 参考訳(メタデータ) (2023-12-11T12:35:17Z) - EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z) - A Comparative Study of Data Augmentation Techniques for Deep Learning
Based Emotion Recognition [11.928873764689458]
感情認識のための一般的なディープラーニングアプローチを包括的に評価する。
音声信号の長距離依存性が感情認識に重要であることを示す。
スピード/レート向上は、モデル間で最も堅牢なパフォーマンス向上を提供する。
論文 参考訳(メタデータ) (2022-11-09T17:27:03Z) - CIAO! A Contrastive Adaptation Mechanism for Non-Universal Facial
Expression Recognition [80.07590100872548]
本稿では、顔エンコーダの最後の層に異なるデータセットの特定の感情特性を適応させるメカニズムであるContrastive Inhibitory Adaptati On(CIAO)を提案する。
CIAOは、非常にユニークな感情表現を持つ6つの異なるデータセットに対して、表情認識性能が改善されている。
論文 参考訳(メタデータ) (2022-08-10T15:46:05Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Continuous Emotion Recognition via Deep Convolutional Autoencoder and
Support Vector Regressor [70.2226417364135]
マシンはユーザの感情状態を高い精度で認識できることが不可欠である。
ディープニューラルネットワークは感情を認識する上で大きな成功を収めている。
表情認識に基づく連続的感情認識のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-01-31T17:47:16Z) - Detecting Emotion Primitives from Speech and their use in discerning
Categorical Emotions [16.886826928295203]
感情は人間同士のコミュニケーションにおいて重要な役割を担い、幸福やフラストレーション、誠実さといった感情を伝えることができる。
この研究は、感情プリミティブが、幸福、嫌悪、軽蔑、怒り、驚きといったカテゴリー的感情を中性的なスピーチから検出する方法について研究した。
以上の結果から, 覚醒と支配は, 感情のより優れた検出方法であった。
論文 参考訳(メタデータ) (2020-01-31T03:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。