論文の概要: EmoTale: An Enacted Speech-emotion Dataset in Danish
- arxiv url: http://arxiv.org/abs/2508.14548v1
- Date: Wed, 20 Aug 2025 09:01:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.403698
- Title: EmoTale: An Enacted Speech-emotion Dataset in Danish
- Title(参考訳): EmoTale:デンマークで制定された音声感情データセット
- Authors: Maja J. Hjuler, Harald V. Skat-Rørdam, Line H. Clemmensen, Sneha Das,
- Abstract要約: エモテール(EmoTale)は、デンマーク語と英語の音声録音のコーパスである。
我々は,自己教師付き音声モデル埋め込みとopenSMILE特徴抽出器を用いて,EmoTaleのSERモデルと参照データセットを開発した。
最良のモデルでは、エモテール・コーパスで64.1%の未加重平均リコール(UAR)を達成する。
- 参考スコア(独自算出の注目度): 4.228593407506635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While multiple emotional speech corpora exist for commonly spoken languages, there is a lack of functional datasets for smaller (spoken) languages, such as Danish. To our knowledge, Danish Emotional Speech (DES), published in 1997, is the only other database of Danish emotional speech. We present EmoTale; a corpus comprising Danish and English speech recordings with their associated enacted emotion annotations. We demonstrate the validity of the dataset by investigating and presenting its predictive power using speech emotion recognition (SER) models. We develop SER models for EmoTale and the reference datasets using self-supervised speech model (SSLM) embeddings and the openSMILE feature extractor. We find the embeddings superior to the hand-crafted features. The best model achieves an unweighted average recall (UAR) of 64.1% on the EmoTale corpus using leave-one-speaker-out cross-validation, comparable to the performance on DES.
- Abstract(参考訳): 一般的に話される言語には複数の感情的音声コーパスが存在するが、デンマーク語のようなより小さな言語のための機能的データセットは存在しない。
私たちの知る限り、1997年に出版されたデンマーク感情音声(DES)は、デンマークの感情音声の唯一のデータベースである。
EmoTaleはデンマーク語と英語の音声記録と関連する感情アノテーションを組み合わせたコーパスである。
音声感情認識(SER)モデルを用いて,その予測能力を検証し,提示することで,データセットの有効性を示す。
我々は,自己教師付き音声モデル(SSLM)とopenSMILE特徴抽出器を用いて,EmoTaleのSERモデルと参照データセットを開発した。
埋め込みは手作りの機能よりも優れている。
最良のモデルは、EmoTaleコーパス上で64.1%の非重み付き平均リコール(UAR)を達成する。
関連論文リスト
- EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting [48.56693150755667]
感情制御可能な新しいTSモデルであるEmoVoiceを提案する。
EmoVoiceは、大きな言語モデル(LLM)を利用して、きめ細かいフリースタイルの自然言語感情制御を可能にする。
EmoVoiceは、英語のEmoVoice-DBテストセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-17T11:50:04Z) - Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。
本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。
HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文 参考訳(メタデータ) (2025-01-06T14:31:25Z) - Feature Selection Enhancement and Feature Space Visualization for
Speech-Based Emotion Recognition [2.223733768286313]
音声の感情認識を改善する音声特徴強調戦略を提案する。
この戦略は、文学で使われている最先端の手法と比較される。
EMO-DBデータセットでは7つの感情のうち6つの感情のうち11.5%、RAVDESSデータセットでは8つの感情のうち7つの感情のうち13.8%が認識された。
論文 参考訳(メタデータ) (2022-08-19T11:29:03Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。