論文の概要: EmoTale: An Enacted Speech-emotion Dataset in Danish
- arxiv url: http://arxiv.org/abs/2508.14548v1
- Date: Wed, 20 Aug 2025 09:01:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.403698
- Title: EmoTale: An Enacted Speech-emotion Dataset in Danish
- Title(参考訳): EmoTale:デンマークで制定された音声感情データセット
- Authors: Maja J. Hjuler, Harald V. Skat-Rørdam, Line H. Clemmensen, Sneha Das,
- Abstract要約: エモテール(EmoTale)は、デンマーク語と英語の音声録音のコーパスである。
我々は,自己教師付き音声モデル埋め込みとopenSMILE特徴抽出器を用いて,EmoTaleのSERモデルと参照データセットを開発した。
最良のモデルでは、エモテール・コーパスで64.1%の未加重平均リコール(UAR)を達成する。
- 参考スコア(独自算出の注目度): 4.228593407506635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While multiple emotional speech corpora exist for commonly spoken languages, there is a lack of functional datasets for smaller (spoken) languages, such as Danish. To our knowledge, Danish Emotional Speech (DES), published in 1997, is the only other database of Danish emotional speech. We present EmoTale; a corpus comprising Danish and English speech recordings with their associated enacted emotion annotations. We demonstrate the validity of the dataset by investigating and presenting its predictive power using speech emotion recognition (SER) models. We develop SER models for EmoTale and the reference datasets using self-supervised speech model (SSLM) embeddings and the openSMILE feature extractor. We find the embeddings superior to the hand-crafted features. The best model achieves an unweighted average recall (UAR) of 64.1% on the EmoTale corpus using leave-one-speaker-out cross-validation, comparable to the performance on DES.
- Abstract(参考訳): 一般的に話される言語には複数の感情的音声コーパスが存在するが、デンマーク語のようなより小さな言語のための機能的データセットは存在しない。
私たちの知る限り、1997年に出版されたデンマーク感情音声(DES)は、デンマークの感情音声の唯一のデータベースである。
EmoTaleはデンマーク語と英語の音声記録と関連する感情アノテーションを組み合わせたコーパスである。
音声感情認識(SER)モデルを用いて,その予測能力を検証し,提示することで,データセットの有効性を示す。
我々は,自己教師付き音声モデル(SSLM)とopenSMILE特徴抽出器を用いて,EmoTaleのSERモデルと参照データセットを開発した。
埋め込みは手作りの機能よりも優れている。
最良のモデルは、EmoTaleコーパス上で64.1%の非重み付き平均リコール(UAR)を達成する。
関連論文リスト
- EmoBench-UA: A Benchmark Dataset for Emotion Detection in Ukrainian [55.08460390792863]
EmoBench-UAはウクライナのテキストで感情を検出するための最初の注釈付きデータセットである。
その結果,ウクライナ語のような非主流言語における感情分類の課題が浮き彫りになった。
論文 参考訳(メタデータ) (2025-05-29T09:49:57Z) - Emo Pillars: Knowledge Distillation to Support Fine-Grained Context-Aware and Context-Less Emotion Classification [56.974545305472304]
感情分析のためのほとんどのデータセットは、意見が表現された文脈を欠き、感情理解に不可欠であり、主にいくつかの感情カテゴリーによって制限される。
我々はLLMベースのデータ合成パイプラインを設計し、よりアクセスしやすい軽量BERT型エンコーダモデルのトレーニング例を生成するために、大規模モデルMistral-7bを利用する。
Emo Pillarsモデルは、GoEmotions、ISEAR、IEMOCAP、EmoContextといった特定のタスクに調整された場合、新しいドメインに対して高い適応性を示し、最初の3つでSOTAのパフォーマンスに達した。
論文 参考訳(メタデータ) (2025-04-23T16:23:17Z) - EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting [48.56693150755667]
感情制御可能な新しいTSモデルであるEmoVoiceを提案する。
EmoVoiceは、大きな言語モデル(LLM)を利用して、きめ細かいフリースタイルの自然言語感情制御を可能にする。
EmoVoiceは、英語のEmoVoice-DBテストセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-17T11:50:04Z) - Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。
本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。
HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文 参考訳(メタデータ) (2025-01-06T14:31:25Z) - MELD-ST: An Emotion-aware Speech Translation Dataset [29.650945917540316]
本稿では,感情認識型音声翻訳タスクのためのMELD-STデータセットについて述べる。
各言語ペアには、MELDデータセットからの感情ラベルを付加した約10,000の発話が含まれている。
データセット上のSeamlessM4Tモデルを用いたベースライン実験は、感情ラベルによる微調整によって、いくつかの環境での翻訳性能が向上することを示している。
論文 参考訳(メタデータ) (2024-05-21T22:40:38Z) - nEMO: Dataset of Emotional Speech in Polish [0.0]
nEMO(nEMO)は、ポーランド語で書かれた感情表現のコーパスである。
データセットは、9人の俳優が6つの感情状態を描いた3時間以上のサンプルで構成されている。
使用したテキストはポーランド語の音声学を適切に表現するために慎重に選択された。
論文 参考訳(メタデータ) (2024-04-09T13:18:52Z) - EMNS /Imz/ Corpus: An emotive single-speaker dataset for narrative
storytelling in games, television and graphic novels [6.2375553155844266]
Emotive Narrative Storytelling (EMNS) コーパスは、会話の感情的品質を高めるために作られたユニークな音声データセットである。
女性スピーカーがラベル付き発声を届ける2.3時間の録音で構成されている。
8つの行動的感情状態を含み、表現力レベルと単語強調ラベルによる自然言語記述とともに0.68%のばらつきで均等に分布している。
論文 参考訳(メタデータ) (2023-05-22T15:32:32Z) - Feature Selection Enhancement and Feature Space Visualization for
Speech-Based Emotion Recognition [2.223733768286313]
音声の感情認識を改善する音声特徴強調戦略を提案する。
この戦略は、文学で使われている最先端の手法と比較される。
EMO-DBデータセットでは7つの感情のうち6つの感情のうち11.5%、RAVDESSデータセットでは8つの感情のうち7つの感情のうち13.8%が認識された。
論文 参考訳(メタデータ) (2022-08-19T11:29:03Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。