論文の概要: nEMO: Dataset of Emotional Speech in Polish
- arxiv url: http://arxiv.org/abs/2404.06292v1
- Date: Tue, 9 Apr 2024 13:18:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 14:40:35.188617
- Title: nEMO: Dataset of Emotional Speech in Polish
- Title(参考訳): nEMO:ポーランドにおける感情音声のデータセット
- Authors: Iwona Christop,
- Abstract要約: nEMO(nEMO)は、ポーランド語で書かれた感情表現のコーパスである。
データセットは、9人の俳優が6つの感情状態を描いた3時間以上のサンプルで構成されている。
使用したテキストはポーランド語の音声学を適切に表現するために慎重に選択された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speech emotion recognition has become increasingly important in recent years due to its potential applications in healthcare, customer service, and personalization of dialogue systems. However, a major issue in this field is the lack of datasets that adequately represent basic emotional states across various language families. As datasets covering Slavic languages are rare, there is a need to address this research gap. This paper presents the development of nEMO, a novel corpus of emotional speech in Polish. The dataset comprises over 3 hours of samples recorded with the participation of nine actors portraying six emotional states: anger, fear, happiness, sadness, surprise, and a neutral state. The text material used was carefully selected to represent the phonetics of the Polish language adequately. The corpus is freely available under the terms of a Creative Commons license (CC BY-NC-SA 4.0).
- Abstract(参考訳): 近年、医療、カスタマーサービス、対話システムのパーソナライズなどにおける潜在的な応用により、音声感情認識の重要性が高まっている。
しかし、この分野の大きな問題は、様々な言語家族の基本的な感情状態を適切に表現するデータセットの欠如である。
スラヴ語をカバーするデータセットは稀であるため、この研究ギャップに対処する必要がある。
本稿では,ポーランド語における感情音声の新しいコーパスであるnEMOの開発について述べる。
データセットは、怒り、恐怖、幸福、悲しみ、驚き、中立状態という6つの感情状態を描いた9人の俳優が参加して記録された3時間以上のサンプルで構成されている。
使用したテキストはポーランド語の音声学を適切に表現するために慎重に選択された。
コーパスはクリエイティブ・コモンズ・ライセンス(CC BY-NC-SA 4.0)の下で無料で利用できる。
関連論文リスト
- MASIVE: Open-Ended Affective State Identification in English and Spanish [10.41502827362741]
本研究は,人間が感情経験を説明するために使用する言葉を含む,事実上拘束力のないテクスタフェクティブな状態にまで範囲を広げる。
私たちは、英語とスペイン語でReddit投稿のデータセットであるMASIVEを収集し、公開しています。
このタスクでは、より小さな微調整された多言語モデルの方が、地域固有のスペイン感情状態においても、ずっと大きなLLMより優れていることが分かる。
論文 参考訳(メタデータ) (2024-07-16T21:43:47Z) - MELD-ST: An Emotion-aware Speech Translation Dataset [29.650945917540316]
本稿では,感情認識型音声翻訳タスクのためのMELD-STデータセットについて述べる。
各言語ペアには、MELDデータセットからの感情ラベルを付加した約10,000の発話が含まれている。
データセット上のSeamlessM4Tモデルを用いたベースライン実験は、感情ラベルによる微調整によって、いくつかの環境での翻訳性能が向上することを示している。
論文 参考訳(メタデータ) (2024-05-21T22:40:38Z) - English Prompts are Better for NLI-based Zero-Shot Emotion
Classification than Target-Language Prompts [17.099269597133265]
たとえデータが異なる言語であっても、英語のプロンプトを使う方が一貫して良いことを示す。
自然言語推論に基づく言語モデルを用いた実験は、データが異なる言語である場合でも、英語のプロンプトを使う方が一貫して良いことを示す。
論文 参考訳(メタデータ) (2024-02-05T17:36:19Z) - BANSpEmo: A Bangla Emotional Speech Recognition Dataset [0.0]
このコーパスには、1時間23分以上のオーディオ録音が772件含まれている。
データセットは12のBangla文からなり、Disgust、Happy、Sad、Suprised、Anger、Fearの6つの感情で発声される。
BanSpEmoは、Bangla言語における感情と音声認識研究および関連する応用を促進するのに有用なリソースであると考えられる。
論文 参考訳(メタデータ) (2023-12-21T16:52:41Z) - SER_AMPEL: a multi-source dataset for speech emotion recognition of
Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。
イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。
このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文 参考訳(メタデータ) (2023-11-24T13:47:25Z) - EMNS /Imz/ Corpus: An emotive single-speaker dataset for narrative
storytelling in games, television and graphic novels [6.2375553155844266]
Emotive Narrative Storytelling (EMNS) コーパスは、会話の感情的品質を高めるために作られたユニークな音声データセットである。
女性スピーカーがラベル付き発声を届ける2.3時間の録音で構成されている。
8つの行動的感情状態を含み、表現力レベルと単語強調ラベルによる自然言語記述とともに0.68%のばらつきで均等に分布している。
論文 参考訳(メタデータ) (2023-05-22T15:32:32Z) - Sentiment recognition of Italian elderly through domain adaptation on
cross-corpus speech dataset [77.99182201815763]
本研究の目的は、イタリアの高齢者の自然な会話において、肯定的、中立的、否定的な感情を認識することができる音声感情認識(SER)モデルを定義することである。
論文 参考訳(メタデータ) (2022-11-14T12:39:41Z) - CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset
for Conversational AI [48.67259855309959]
会話型AIのための既存のデータセットのほとんどは、人間の個性や感情を無視している。
CPEDは,中国における大規模パーソナライズされた感情対話データセットである。
CPEDには40のテレビ番組から392人の話者の12K以上の対話が含まれている。
論文 参考訳(メタデータ) (2022-05-29T17:45:12Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Emotional Voice Conversion: Theory, Databases and ESD [84.62083515557886]
新たな感情音声データベース(ESD)の開発をモチベーションとする。
ESDデータベースは、10人のネイティブイングリッシュと10人のネイティブ中国語話者によって話される350のパラレル発話で構成されている。
本データベースは,多言語・多言語間音声変換研究に適したデータベースである。
論文 参考訳(メタデータ) (2021-05-31T07:48:56Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。