論文の概要: BANSpEmo: A Bangla Emotional Speech Recognition Dataset
- arxiv url: http://arxiv.org/abs/2312.14020v1
- Date: Thu, 21 Dec 2023 16:52:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 14:07:40.373010
- Title: BANSpEmo: A Bangla Emotional Speech Recognition Dataset
- Title(参考訳): banspemo:バングラの感情音声認識データセット
- Authors: Md Gulzar Hussain, Mahmuda Rahman, Babe Sultana, Ye Shiren
- Abstract要約: このコーパスには、1時間23分以上のオーディオ録音が772件含まれている。
データセットは12のBangla文からなり、Disgust、Happy、Sad、Suprised、Anger、Fearの6つの感情で発声される。
BanSpEmoは、Bangla言語における感情と音声認識研究および関連する応用を促進するのに有用なリソースであると考えられる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of audio and speech analysis, the ability to identify emotions
from acoustic signals is essential. Human-computer interaction (HCI) and
behavioural analysis are only a few of the many areas where the capacity to
distinguish emotions from speech signals has an extensive range of
applications. Here, we are introducing BanSpEmo, a corpus of emotional speech
that only consists of audio recordings and has been created specifically for
the Bangla language. This corpus contains 792 audio recordings over a duration
of more than 1 hour and 23 minutes. 22 native speakers took part in the
recording of two sets of sentences that represent the six desired emotions. The
data set consists of 12 Bangla sentences which are uttered in 6 emotions as
Disgust, Happy, Sad, Surprised, Anger, and Fear. This corpus is not also gender
balanced. Ten individuals who either have experience in related field or have
acting experience took part in the assessment of this corpus. It has a balanced
number of audio recordings in each emotion class. BanSpEmo can be considered as
a useful resource to promote emotion and speech recognition research and
related applications in the Bangla language. The dataset can be found here:
https://data.mendeley.com/datasets/rdwn4bs5ky and might be employed for
academic research.
- Abstract(参考訳): 音声と音声分析の分野では、音響信号から感情を識別する能力が不可欠である。
ヒューマン・コンピュータ・インタラクション(HCI)と行動分析は、感情を音声信号と区別する能力が幅広い応用範囲を持つ多くの分野のごく一部にすぎない。
ここではBanSpEmoを紹介します。Bangla言語専用の音声録音のみで構成された感情音声コーパスです。
このコーパスには1時間23分以上にわたって792の音声録音が含まれている。
22人の母語話者が6つの感情を表す2つの文の録音に参加した。
データセットは12のBangla文からなり、Disgust、Happy、Sad、Suprised、Anger、Fearの6つの感情で発声される。
このコーパスは男女のバランスが取れていない。
このコーパスの評価には、関連分野の経験を持つか、行動経験を持つ10人の個人が参加した。
各感情クラスにバランスの取れた音声記録がある。
BanSpEmoは、Bangla言語における感情と音声認識研究および関連する応用を促進するのに有用なリソースであると考えられる。
データセットは以下の通りである。 https://data.mendeley.com/datasets/rdwn4bs5ky。
関連論文リスト
- nEMO: Dataset of Emotional Speech in Polish [0.0]
nEMO(nEMO)は、ポーランド語で書かれた感情表現のコーパスである。
データセットは、9人の俳優が6つの感情状態を描いた3時間以上のサンプルで構成されている。
使用したテキストはポーランド語の音声学を適切に表現するために慎重に選択された。
論文 参考訳(メタデータ) (2024-04-09T13:18:52Z) - Speech and Text-Based Emotion Recognizer [0.9168634432094885]
我々は、音声感情認識のための公開データセットからバランスの取れたコーパスを構築する。
最良システムはマルチモーダル音声とテキストベースモデルであり,UA(Unweighed Accuracy)+WA(Weighed Accuracy)を119.66のベースラインアルゴリズムと比較して157.57の性能を提供する。
論文 参考訳(メタデータ) (2023-12-10T05:17:39Z) - EMNS /Imz/ Corpus: An emotive single-speaker dataset for narrative
storytelling in games, television and graphic novels [6.2375553155844266]
Emotive Narrative Storytelling (EMNS) コーパスは、会話の感情的品質を高めるために作られたユニークな音声データセットである。
女性スピーカーがラベル付き発声を届ける2.3時間の録音で構成されている。
8つの行動的感情状態を含み、表現力レベルと単語強調ラベルによる自然言語記述とともに0.68%のばらつきで均等に分布している。
論文 参考訳(メタデータ) (2023-05-22T15:32:32Z) - Describing emotions with acoustic property prompts for speech emotion
recognition [30.990720176317463]
本研究では、ピッチ、ラウドネス、発声率、調音率などの音響特性を演算することで、所定の音声に対する記述を自動生成する手法を提案する。
これらの音声テキストペアを用いてニューラルネットワークモデルをトレーニングし、さらに1つのデータセットを用いてモデルを評価する。
モデルが音声と記述を関連づけることについて検討し,その結果,音声の感情認識と音声検索の性能が向上した。
論文 参考訳(メタデータ) (2022-11-14T20:29:37Z) - Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文 参考訳(メタデータ) (2022-08-11T15:45:58Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Is Speech Emotion Recognition Language-Independent? Analysis of English
and Bangla Languages using Language-Independent Vocal Features [4.446085353384894]
我々はバングラ語と英語を用いて、感情と音声の区別が言語に依存しているかどうかを評価した。
この研究では、幸福、怒り、中立、悲しみ、嫌悪、恐怖といった感情が分類された。
本研究は、音声感情認識(SER)が言語に依存しないことを明らかにするが、この2つの言語では嫌悪感や恐怖といった感情状態を認識しながら、多少の相違がある。
論文 参考訳(メタデータ) (2021-11-21T09:28:49Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z) - Annotation of Emotion Carriers in Personal Narratives [69.07034604580214]
我々は、個人的物語(PN) - 話されたり書かれたり - 事実、出来事、思考の記憶 - を理解する問題に興味を持っている。
PNでは、感情担体(英: emotion carriers)は、ユーザの感情状態を最もよく説明する音声またはテキストセグメントである。
本研究は,音声対話における感情担持者を特定するためのアノテーションモデルを提案し,評価する。
論文 参考訳(メタデータ) (2020-02-27T15:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。