論文の概要: EmoNet-Voice: A Fine-Grained, Expert-Verified Benchmark for Speech Emotion Detection
- arxiv url: http://arxiv.org/abs/2506.09827v1
- Date: Wed, 11 Jun 2025 15:06:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.079371
- Title: EmoNet-Voice: A Fine-Grained, Expert-Verified Benchmark for Speech Emotion Detection
- Title(参考訳): EmoNet-Voice:音声感情検出のためのエキスパート認定ベンチマーク
- Authors: Christoph Schuhmann, Robert Kaczmarczyk, Gollam Rabby, Felix Friedrich, Maurice Kraus, Kourosh Nadi, Huu Nguyen, Kristian Kersting, Sören Auer,
- Abstract要約: 本稿では,音声感情検出のための新しいリソースであるEmoNet-Voiceを紹介する。
EmoNet-Voiceは、40の感情カテゴリーの細かいスペクトルでSERモデルを評価するように設計されている。
また、人間の専門家と高い合意を得て、音声感情認識の新しい標準となる共感型Insight Voiceモデルも導入する。
- 参考スコア(独自算出の注目度): 19.43600992826571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advancement of text-to-speech and audio generation models necessitates robust benchmarks for evaluating the emotional understanding capabilities of AI systems. Current speech emotion recognition (SER) datasets often exhibit limitations in emotional granularity, privacy concerns, or reliance on acted portrayals. This paper introduces EmoNet-Voice, a new resource for speech emotion detection, which includes EmoNet-Voice Big, a large-scale pre-training dataset (featuring over 4,500 hours of speech across 11 voices, 40 emotions, and 4 languages), and EmoNet-Voice Bench, a novel benchmark dataset with human expert annotations. EmoNet-Voice is designed to evaluate SER models on a fine-grained spectrum of 40 emotion categories with different levels of intensities. Leveraging state-of-the-art voice generation, we curated synthetic audio snippets simulating actors portraying scenes designed to evoke specific emotions. Crucially, we conducted rigorous validation by psychology experts who assigned perceived intensity labels. This synthetic, privacy-preserving approach allows for the inclusion of sensitive emotional states often absent in existing datasets. Lastly, we introduce Empathic Insight Voice models that set a new standard in speech emotion recognition with high agreement with human experts. Our evaluations across the current model landscape exhibit valuable findings, such as high-arousal emotions like anger being much easier to detect than low-arousal states like concentration.
- Abstract(参考訳): テキスト音声および音声生成モデルの進歩は、AIシステムの感情理解能力を評価するための堅牢なベンチマークを必要とする。
現在の音声感情認識(SER)データセットは、感情的な粒度、プライバシーの懸念、行動した表現への依存の限界をしばしば示している。
本稿では,EmoNet-Voice Big,大規模事前学習データセット(11声,40感情,4言語で4,500時間以上の音声),EmoNet-Voice Bench,人間の専門家アノテーションを用いた新しいベンチマークデータセットなど,音声感情検出のための新たなリソースであるEmoNet-Voiceを紹介する。
EmoNet-Voiceは、40の感情カテゴリーの細かいスペクトルでSERモデルを評価するように設計されている。
最先端の音声生成を活用して、特定の感情を誘発するシーンをシミュレートした、アクターをシミュレートした合成音声スニペットをキュレートした。
重度ラベルを割り当てた心理学者による厳格な検証を行った。
この合成プライバシー保護アプローチは、既存のデータセットにしばしば欠落するセンシティブな感情状態を含めることができる。
最後に、人間の専門家と高い合意を得て、音声感情認識の新しい標準となる共感型Insight Voiceモデルを紹介する。
例えば、怒りのような高覚醒的な感情は、集中のような低覚醒的な状態よりも検出しやすくなっている。
関連論文リスト
- EmoNet-Face: An Expert-Annotated Benchmark for Synthetic Emotion Recognition [18.8101367995391]
EmoNet FaceはAIシステムの開発と評価のための総合的なベンチマークスイートである。
新たな40カテゴリの感情分類法は、人間の感情経験のより詳細な詳細を捉えている。
明示的で完全な表情を持つ3つの大規模なAI生成データセット。
EmpathicInsight-Faceは、私たちのベンチマークで人間レベルのパフォーマンスを達成するモデルです。
論文 参考訳(メタデータ) (2025-05-26T14:19:58Z) - EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting [48.56693150755667]
EmoVoiceは、大きな言語モデル(LLM)を利用して、きめ細かい自然言語の感情制御を可能にする、感情制御可能な新しいTSモデルである。
EmoVoice-DBは、表現力のある音声と自然言語記述によるきめ細かい感情ラベルを特徴とする、高品質な40時間感情データセットである。
論文 参考訳(メタデータ) (2025-04-17T11:50:04Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Infusing Multi-Source Knowledge with Heterogeneous Graph Neural Network
for Emotional Conversation Generation [25.808037796936766]
実世界の会話では,マルチソース情報から感情を直感的に知覚する。
感情的会話生成のための異種グラフモデルを提案する。
実験結果は,本モデルがマルチソース知識から感情を効果的に知覚できることを示した。
論文 参考訳(メタデータ) (2020-12-09T06:09:31Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。