論文の概要: EMOVOME Database: Advancing Emotion Recognition in Speech Beyond Staged Scenarios
- arxiv url: http://arxiv.org/abs/2403.02167v2
- Date: Thu, 13 Jun 2024 13:05:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 23:35:40.784286
- Title: EMOVOME Database: Advancing Emotion Recognition in Speech Beyond Staged Scenarios
- Title(参考訳): EMOVOMEデータベース:段階的シナリオを超えた音声における感情認識の促進
- Authors: Lucía Gómez-Zaragozá, Rocío del Amor, María José Castro-Bleda, Valery Naranjo, Mariano Alcañiz Raya, Javier Marín-Morales,
- Abstract要約: 私たちはEMOVOME(Emotional Voice Messages)データベースをリリースしました。
話者非依存型音声感情認識(SER)モデルを,標準的な音響特徴セットとトランスフォーマーモデルを用いて評価した。
EMOVOMEの結果はアノテータラベルによって変化し、専門家と非専門家のアノテーションを組み合わせる際に、より良い結果と公平性を示す。
- 参考スコア(独自算出の注目度): 2.1455880234227624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural databases for Speech Emotion Recognition (SER) are scarce and often rely on staged scenarios, such as films or television shows, limiting their application in real-world contexts. We developed and publicly released the Emotional Voice Messages (EMOVOME) database, including 999 voice messages from real conversations of 100 Spanish speakers on a messaging app, labeled in continuous and discrete emotions by expert and non-expert annotators. We evaluated speaker-independent SER models using a standard set of acoustic features and transformer-based models. We compared the results with reference databases including acted and elicited speech, and analyzed the influence of annotators and gender fairness. The pre-trained UniSpeech-SAT-Large model achieved the highest results, 61.64% and 55.57% Unweighted Accuracy (UA) for 3-class valence and arousal prediction respectively on EMOVOME, a 10% improvement over baseline models. For the emotion categories, 42.58% UA was obtained. EMOVOME performed lower than the acted RAVDESS database. The elicited IEMOCAP database also outperformed EMOVOME in predicting emotion categories, while similar results were obtained in valence and arousal. EMOVOME outcomes varied with annotator labels, showing better results and fairness when combining expert and non-expert annotations. This study highlights the gap between staged and real-life scenarios, supporting further advancements in recognizing genuine emotions.
- Abstract(参考訳): 音声感情認識(SER)のための自然なデータベースは乏しく、映画やテレビ番組のようなステージ化されたシナリオに依存しており、現実の文脈での応用を制限する。
EMOVOME(Emotional Voice Messages)データベースを開発し,公開し,100人のスペイン人話者の実際の会話から999件の音声メッセージをメッセージアプリ上に表示した。
標準音響特徴セットと変圧器モデルを用いて、話者非依存SERモデルの評価を行った。
提案手法は,行動・誘惑音声を含む参照データベースと比較し,アノテータの影響と性別の公平さを解析した。
プレトレーニングされたUniSpeech-SAT-Largeモデルは、ベースラインモデルよりも10%改善したEMOVOMEで、それぞれ3クラスの精度で61.64%と55.57%の未重み付き精度(UA)を達成した。
感情カテゴリーでは42.58%のUAが得られた。
EMOVOMEは、実行されたRAVDESSデータベースよりも低かった。
The elicited IEMOCAP database alsoformed EMOVOME in predicting emotion categories, while similar results were obtained in valence and arousal。
EMOVOMEの結果はアノテータラベルによって変化し、専門家と非専門家のアノテーションを組み合わせる際に、より良い結果と公平性を示す。
本研究は、ステージと現実のシナリオのギャップを強調し、真の感情を認識するためのさらなる進歩を支援する。
関連論文リスト
- Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。
本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。
HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文 参考訳(メタデータ) (2025-01-06T14:31:25Z) - A Cross-Corpus Speech Emotion Recognition Method Based on Supervised Contrastive Learning [0.0]
本稿では,教師付きコントラスト学習に基づくクロスコーパス音声認識手法を提案する。
まず,複数の音声感情データセットに対する教師付きコントラスト学習を用いて,自己教師付き音声表現モデルを微調整する。
実験の結果、WavLMベースのモデルはIEMOCAPデータセットで77.41%、CAIAデータセットで96.49%の未重み付き精度(UA)を達成した。
論文 参考訳(メタデータ) (2024-11-25T07:03:31Z) - Fusion approaches for emotion recognition from speech using acoustic and text-based features [15.186937600119897]
音声とテキストを用いた音声から感情を分類する手法について検討した。
音声とテキストのモダリティを組み合わせる戦略を比較し,IEMOCAPとMPP-PODCASTデータセット上で評価する。
IEMOCAPでは,クロスバリデーション・フォールドの定義に使用される基準が結果に大きく影響していることを示す。
論文 参考訳(メタデータ) (2024-03-27T14:40:25Z) - Emotional Voice Messages (EMOVOME) database: emotion recognition in spontaneous voice messages [2.1455880234227624]
EMOVOME(Emotional Voice Messages)は、スペイン語話者100人のメッセージアプリで、実際の会話から999の音声メッセージを含む、自発的な音声データセットである。
ボイスメッセージは、参加者が採用される前に、実験室環境による意識的な偏見を避けるために、現場で発生した。
このデータベースは、野生における感情認識の研究に大きく貢献すると同時に、スペイン語に固有の自然で自由にアクセスできるリソースを提供する。
論文 参考訳(メタデータ) (2024-02-27T13:22:47Z) - Speech and Text-Based Emotion Recognizer [0.9168634432094885]
我々は、音声感情認識のための公開データセットからバランスの取れたコーパスを構築する。
最良システムはマルチモーダル音声とテキストベースモデルであり,UA(Unweighed Accuracy)+WA(Weighed Accuracy)を119.66のベースラインアルゴリズムと比較して157.57の性能を提供する。
論文 参考訳(メタデータ) (2023-12-10T05:17:39Z) - A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文 参考訳(メタデータ) (2023-03-14T16:08:45Z) - Feature Selection Enhancement and Feature Space Visualization for
Speech-Based Emotion Recognition [2.223733768286313]
音声の感情認識を改善する音声特徴強調戦略を提案する。
この戦略は、文学で使われている最先端の手法と比較される。
EMO-DBデータセットでは7つの感情のうち6つの感情のうち11.5%、RAVDESSデータセットでは8つの感情のうち7つの感情のうち13.8%が認識された。
論文 参考訳(メタデータ) (2022-08-19T11:29:03Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。