論文の概要: Speech emotion recognition from voice messages recorded in the wild
- arxiv url: http://arxiv.org/abs/2403.02167v1
- Date: Mon, 4 Mar 2024 16:13:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 18:21:02.199332
- Title: Speech emotion recognition from voice messages recorded in the wild
- Title(参考訳): 野生で記録された音声からの音声感情認識
- Authors: Luc\'ia G\'omez-Zaragoz\'a, \'Oscar Valls, Roc\'io del Amor, Mar\'ia
Jos\'e Castro-Bleda, Valery Naranjo, Mariano Alca\~niz Raya, Javier
Mar\'in-Morales
- Abstract要約: EMOVOME(Emotional Voice Messages)データベースを使って、100人のスペイン語話者の会話から自発的に音声メッセージを送ることができた。
我々は,eGeMAPS機能,トランスフォーマーベースモデル,およびそれらの組み合わせを用いた話者非依存SERモデルを構築した。
その結果を参照データベースと比較し,アノテータの影響と性別の公平さを分析した。
- 参考スコア(独自算出の注目度): 1.5518403942994823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotion datasets used for Speech Emotion Recognition (SER) often contain
acted or elicited speech, limiting their applicability in real-world scenarios.
In this work, we used the Emotional Voice Messages (EMOVOME) database,
including spontaneous voice messages from conversations of 100 Spanish speakers
on a messaging app, labeled in continuous and discrete emotions by expert and
non-expert annotators. We created speaker-independent SER models using the
eGeMAPS features, transformer-based models and their combination. We compared
the results with reference databases and analyzed the influence of annotators
and gender fairness. The pre-trained Unispeech-L model and its combination with
eGeMAPS achieved the highest results, with 61.64% and 55.57% Unweighted
Accuracy (UA) for 3-class valence and arousal prediction respectively, a 10%
improvement over baseline models. For the emotion categories, 42.58% UA was
obtained. EMOVOME performed lower than the acted RAVDESS database. The elicited
IEMOCAP database also outperformed EMOVOME in the prediction of emotion
categories, while similar results were obtained in valence and arousal.
Additionally, EMOVOME outcomes varied with annotator labels, showing superior
results and better fairness when combining expert and non-expert annotations.
This study significantly contributes to the evaluation of SER models in
real-life situations, advancing in the development of applications for
analyzing spontaneous voice messages.
- Abstract(参考訳): 音声感情認識(ser)に使用される感情データセットは、しばしば行動または誘発された音声を含み、現実世界のシナリオでの適用性を制限する。
本研究では,EMOVOME(Emotional Voice Messages)データベースを用いて,専門家や専門家以外のアノテータによる連続的かつ離散的な感情にラベル付けされた,100人のスペイン語話者の会話からの自発的な音声メッセージを含む。
我々はeGeMAPS機能とトランスフォーマーベースモデルと組み合わせて話者独立SERモデルを構築した。
その結果を参考データベースと比較し,注釈者および性公平性の影響について分析した。
事前訓練されたUnispeech-LモデルとeGeMAPSの組み合わせは、ベースラインモデルよりも10%向上し、61.64%と55.57%のUnweighted Accuracy (UA)をそれぞれ3クラスの精度で達成した。
感情カテゴリーでは 42.58% ua が得られた。
EMOVOMEは、実行されたRAVDESSデータベースよりも低かった。
iemocap データベースは感情カテゴリーの予測において emovome よりも優れており、同様の結果は valence と arousal で得られた。
さらに、EMOVOMEの結果はアノテータラベルによって変化し、専門家と非専門家のアノテーションを組み合わせる際に、優れた結果と公正性を示す。
本研究は,実生活におけるSERモデルの評価に大きく貢献し,自発音声を解析するアプリケーションの開発を進めた。
関連論文リスト
- Emotional Voice Messages (EMOVOME) database: emotion recognition in
spontaneous voice messages [0.0]
EMOVOME(Emotional Voice Messages)は、スペイン語話者100人のメッセージアプリで、実際の会話から999の音声メッセージを含む、自発的な音声データセットである。
ボイスメッセージは、参加者が採用される前に、実験室環境による意識的な偏見を避けるために、現場で発生した。
このデータベースは、野生における感情認識の研究に大きく貢献すると同時に、スペイン語に固有の自然で自由にアクセスできるリソースを提供する。
論文 参考訳(メタデータ) (2024-02-27T13:22:47Z) - Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - Construction and Evaluation of Mandarin Multimodal Emotional Speech
Database [0.0]
次元アノテーションの妥当性は次元アノテーションデータの統計的解析によって検証される。
7つの感情の認識率は、音響データだけで約82%である。
データベースは高品質であり、音声分析研究の重要な情報源として利用することができる。
論文 参考訳(メタデータ) (2024-01-14T17:56:36Z) - Speech and Text-Based Emotion Recognizer [0.9168634432094885]
我々は、音声感情認識のための公開データセットからバランスの取れたコーパスを構築する。
最良システムはマルチモーダル音声とテキストベースモデルであり,UA(Unweighed Accuracy)+WA(Weighed Accuracy)を119.66のベースラインアルゴリズムと比較して157.57の性能を提供する。
論文 参考訳(メタデータ) (2023-12-10T05:17:39Z) - A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文 参考訳(メタデータ) (2023-03-14T16:08:45Z) - Feature Selection Enhancement and Feature Space Visualization for
Speech-Based Emotion Recognition [2.223733768286313]
音声の感情認識を改善する音声特徴強調戦略を提案する。
この戦略は、文学で使われている最先端の手法と比較される。
EMO-DBデータセットでは7つの感情のうち6つの感情のうち11.5%、RAVDESSデータセットでは8つの感情のうち7つの感情のうち13.8%が認識された。
論文 参考訳(メタデータ) (2022-08-19T11:29:03Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - CASA-Based Speaker Identification Using Cascaded GMM-CNN Classifier in
Noisy and Emotional Talking Conditions [1.6449390849183358]
本研究の目的は、雑音や感情的な発話条件などの実際の応用状況において、テキストに依存しない話者識別性能を高めることである。
本研究は,感情的・高雑音的環境下での話者識別の精度向上のための新しいアルゴリズムを提案し,評価する。
論文 参考訳(メタデータ) (2021-02-11T08:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。