論文の概要: Emotional Voice Messages (EMOVOME) database: emotion recognition in
spontaneous voice messages
- arxiv url: http://arxiv.org/abs/2402.17496v1
- Date: Tue, 27 Feb 2024 13:22:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 16:13:45.621130
- Title: Emotional Voice Messages (EMOVOME) database: emotion recognition in
spontaneous voice messages
- Title(参考訳): 感情音声メッセージ(emovome)データベース : 自発的音声メッセージにおける感情認識
- Authors: Luc\'ia G\'omez Zaragoz\'a (1), Roc\'io del Amor (1), Elena Parra
Vargas (1), Valery Naranjo (1), Mariano Alca\~niz Raya (1), Javier
Mar\'in-Morales (1) ((1) HUMAN-tech Institute, Universitat Polit\`enica de
Val\`encia, Valencia, Spain)
- Abstract要約: EMOVOME(Emotional Voice Messages)は、スペイン語話者100人のメッセージアプリで、実際の会話から999の音声メッセージを含む、自発的な音声データセットである。
ボイスメッセージは、参加者が採用される前に、実験室環境による意識的な偏見を避けるために、現場で発生した。
このデータベースは、野生における感情認識の研究に大きく貢献すると同時に、スペイン語に固有の自然で自由にアクセスできるリソースを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotional Voice Messages (EMOVOME) is a spontaneous speech dataset containing
999 audio messages from real conversations on a messaging app from 100 Spanish
speakers, gender balanced. Voice messages were produced in-the-wild conditions
before participants were recruited, avoiding any conscious bias due to
laboratory environment. Audios were labeled in valence and arousal dimensions
by three non-experts and two experts, which were then combined to obtain a
final label per dimension. The experts also provided an extra label
corresponding to seven emotion categories. To set a baseline for future
investigations using EMOVOME, we implemented emotion recognition models using
both speech and audio transcriptions. For speech, we used the standard eGeMAPS
feature set and support vector machines, obtaining 49.27% and 44.71% unweighted
accuracy for valence and arousal respectively. For text, we fine-tuned a
multilingual BERT model and achieved 61.15% and 47.43% unweighted accuracy for
valence and arousal respectively. This database will significantly contribute
to research on emotion recognition in the wild, while also providing a unique
natural and freely accessible resource for Spanish.
- Abstract(参考訳): EMOVOME(Emotional Voice Messages)は、スペイン語話者100人のメッセージアプリで、実際の会話から999の音声メッセージを含む、自発的な音声データセットである。
ボイスメッセージは、参加者が採用される前に、実験室環境による意識的な偏見を避けるために、現場で発生した。
音声は3人の非専門家と2人の専門家によってヴァレンスと覚醒次元でラベル付けされ、それらを組み合わせて次元ごとに最終ラベルを得た。
専門家は7つの感情カテゴリーに対応する追加ラベルも提供した。
EMOVOMEを用いた将来の調査のベースラインを設定するために,音声と音声の両方を用いた感情認識モデルを実装した。
音声では,標準の eGeMAPS 機能セットとサポートベクターを用いて,それぞれ49.27% と44.71% の未加重精度を得た。
テキストでは、多言語BERTモデルを微調整し、それぞれ61.15%と47.43%の未重み付き精度を達成した。
このデータベースは、野生における感情認識の研究に大きく貢献すると同時に、スペイン語に固有の自然で自由にアクセスできるリソースを提供する。
関連論文リスト
- EMOVOME Database: Advancing Emotion Recognition in Speech Beyond Staged Scenarios [2.1455880234227624]
私たちはEMOVOME(Emotional Voice Messages)データベースをリリースしました。
話者非依存型音声感情認識(SER)モデルを,標準的な音響特徴セットとトランスフォーマーモデルを用いて評価した。
EMOVOMEの結果はアノテータラベルによって変化し、専門家と非専門家のアノテーションを組み合わせる際に、より良い結果と公平性を示す。
論文 参考訳(メタデータ) (2024-03-04T16:13:39Z) - Construction and Evaluation of Mandarin Multimodal Emotional Speech
Database [0.0]
次元アノテーションの妥当性は次元アノテーションデータの統計的解析によって検証される。
7つの感情の認識率は、音響データだけで約82%である。
データベースは高品質であり、音声分析研究の重要な情報源として利用することができる。
論文 参考訳(メタデータ) (2024-01-14T17:56:36Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - SER_AMPEL: a multi-source dataset for speech emotion recognition of
Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。
イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。
このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文 参考訳(メタデータ) (2023-11-24T13:47:25Z) - Effect of Attention and Self-Supervised Speech Embeddings on
Non-Semantic Speech Tasks [3.570593982494095]
我々は、より現実的な認識課題として、音声感情理解を考察する。
我々は,ComParEの多言語話者の豊富なデータセットと,その感情の「感情共有」や知覚の多言語回帰ターゲットを利用する。
以上の結果から,HuBERT-Largeの自己アテンションに基づく軽量シーケンスモデルでは,報告されたベースラインよりも4.6%向上していることがわかった。
論文 参考訳(メタデータ) (2023-08-28T07:11:27Z) - EMNS /Imz/ Corpus: An emotive single-speaker dataset for narrative
storytelling in games, television and graphic novels [6.2375553155844266]
Emotive Narrative Storytelling (EMNS) コーパスは、会話の感情的品質を高めるために作られたユニークな音声データセットである。
女性スピーカーがラベル付き発声を届ける2.3時間の録音で構成されている。
8つの行動的感情状態を含み、表現力レベルと単語強調ラベルによる自然言語記述とともに0.68%のばらつきで均等に分布している。
論文 参考訳(メタデータ) (2023-05-22T15:32:32Z) - Feature Selection Enhancement and Feature Space Visualization for
Speech-Based Emotion Recognition [2.223733768286313]
音声の感情認識を改善する音声特徴強調戦略を提案する。
この戦略は、文学で使われている最先端の手法と比較される。
EMO-DBデータセットでは7つの感情のうち6つの感情のうち11.5%、RAVDESSデータセットでは8つの感情のうち7つの感情のうち13.8%が認識された。
論文 参考訳(メタデータ) (2022-08-19T11:29:03Z) - CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset
for Conversational AI [48.67259855309959]
会話型AIのための既存のデータセットのほとんどは、人間の個性や感情を無視している。
CPEDは,中国における大規模パーソナライズされた感情対話データセットである。
CPEDには40のテレビ番組から392人の話者の12K以上の対話が含まれている。
論文 参考訳(メタデータ) (2022-05-29T17:45:12Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Emotional Voice Conversion: Theory, Databases and ESD [84.62083515557886]
新たな感情音声データベース(ESD)の開発をモチベーションとする。
ESDデータベースは、10人のネイティブイングリッシュと10人のネイティブ中国語話者によって話される350のパラレル発話で構成されている。
本データベースは,多言語・多言語間音声変換研究に適したデータベースである。
論文 参考訳(メタデータ) (2021-05-31T07:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。