論文の概要: Is Speech Emotion Recognition Language-Independent? Analysis of English
and Bangla Languages using Language-Independent Vocal Features
- arxiv url: http://arxiv.org/abs/2111.10776v1
- Date: Sun, 21 Nov 2021 09:28:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 08:31:52.477278
- Title: Is Speech Emotion Recognition Language-Independent? Analysis of English
and Bangla Languages using Language-Independent Vocal Features
- Title(参考訳): 音声認識言語は非依存か?
言語非依存音声特徴を用いた英語およびバングラ語の分析
- Authors: Fardin Saad, Hasan Mahmud, Md. Alamin Shaheen, Md. Kamrul Hasan,
Paresha Farastu
- Abstract要約: 我々はバングラ語と英語を用いて、感情と音声の区別が言語に依存しているかどうかを評価した。
この研究では、幸福、怒り、中立、悲しみ、嫌悪、恐怖といった感情が分類された。
本研究は、音声感情認識(SER)が言語に依存しないことを明らかにするが、この2つの言語では嫌悪感や恐怖といった感情状態を認識しながら、多少の相違がある。
- 参考スコア(独自算出の注目度): 4.446085353384894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A language agnostic approach to recognizing emotions from speech remains an
incomplete and challenging task. In this paper, we used Bangla and English
languages to assess whether distinguishing emotions from speech is independent
of language. The following emotions were categorized for this study: happiness,
anger, neutral, sadness, disgust, and fear. We employed three Emotional Speech
Sets, of which the first two were developed by native Bengali speakers in
Bangla and English languages separately. The third was the Toronto Emotional
Speech Set (TESS), which was developed by native English speakers from Canada.
We carefully selected language-independent prosodic features, adopted a Support
Vector Machine (SVM) model, and conducted three experiments to carry out our
proposition. In the first experiment, we measured the performance of the three
speech sets individually. This was followed by the second experiment, where we
recorded the classification rate by combining the speech sets. Finally, in the
third experiment we measured the recognition rate by training and testing the
model with different speech sets. Although this study reveals that Speech
Emotion Recognition (SER) is mostly language-independent, there is some
disparity while recognizing emotional states like disgust and fear in these two
languages. Moreover, our investigations inferred that non-native speakers
convey emotions through speech, much like expressing themselves in their native
tongue.
- Abstract(参考訳): 音声から感情を認識する言語に依存しないアプローチは、いまだに不完全で困難な課題である。
本稿では,バングラ語と英語を用いて,感情と音声の区別が言語に依存しないかどうかを評価する。
この研究では、幸福、怒り、中立、悲しみ、嫌悪、恐怖といった感情が分類された。
最初の2つはバングラ語と英語の母語ベンガル語話者によって別々に開発された。
3つ目はトロント感情音声セット(TESS)で、カナダ出身の英語話者によって開発された。
言語非依存の韻律特徴を慎重に選択し、サポートベクターマシン(svm)モデルを採用し、3つの実験を行った。
最初の実験では、3つの音声セットのパフォーマンスを個別に測定した。
続いて第2の実験を行い,音声集合を合成して分類率を記録した。
そして,第3の実験では,異なる音声セットでモデルの学習とテストを行い,認識率を測定した。
本研究は、音声感情認識(SER)が言語に依存しないことを明らかにするが、この2つの言語では嫌悪や恐怖といった感情状態を認識しながら、多少の相違がある。
さらに,非母国語話者が母国語で表現するのと同じように,言語を通して感情を伝えることを推測した。
関連論文リスト
- BANSpEmo: A Bangla Emotional Speech Recognition Dataset [0.0]
このコーパスには、1時間23分以上のオーディオ録音が772件含まれている。
データセットは12のBangla文からなり、Disgust、Happy、Sad、Suprised、Anger、Fearの6つの感情で発声される。
BanSpEmoは、Bangla言語における感情と音声認識研究および関連する応用を促進するのに有用なリソースであると考えられる。
論文 参考訳(メタデータ) (2023-12-21T16:52:41Z) - AffectEcho: Speaker Independent and Language-Agnostic Emotion and Affect
Transfer for Speech Synthesis [13.918119853846838]
Affectは、原子価、覚醒、強さを含む感情的特徴であり、真正な会話を可能にする重要な属性である。
本稿では,Vector Quantized Codebookを用いた感情翻訳モデルAffectEchoを提案する。
それぞれの話者に特有のアイデンティティ、スタイル、感情のリズムを保ちながら、生成した音声の感情を制御する方法の有効性を実証する。
論文 参考訳(メタデータ) (2023-08-16T06:28:29Z) - Learning Multilingual Expressive Speech Representation for Prosody
Prediction without Parallel Data [0.0]
本稿では,個別音声単位のレベルで音声から音声への感情翻訳を行う手法を提案する。
この埋め込みは、対象言語における音声単位のピッチと持続時間を予測するのに有効であることを示す。
我々は、英語とフランス語の音声信号に対する我々のアプローチを評価し、ベースライン法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-29T08:06:54Z) - Cross-Lingual Cross-Age Group Adaptation for Low-Resource Elderly Speech
Emotion Recognition [48.29355616574199]
我々は、英語、中国語、カントン語という3つの異なる言語における感情認識の伝達可能性を分析する。
本研究は,異なる言語群と年齢群が特定の音声特徴を必要とすることを結論し,言語間推論を不適切な方法とする。
論文 参考訳(メタデータ) (2023-06-26T08:48:08Z) - Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文 参考訳(メタデータ) (2022-08-11T15:45:58Z) - A study on native American English speech recognition by Indian
listeners with varying word familiarity level [62.14295630922855]
発声を認識している間、各聴取者から3種類の応答が得られます。
これらの転写から単語誤り率(WER)を算出し、認識された文と原文との類似性を評価する指標として用いる。
話者のナティビティの賢明な分析は、一部のナティビティの話者からの発声が、他のいくつかのナティビティに比べてインド人のリスナーによって認識されるのが困難であることを示している。
論文 参考訳(メタデータ) (2021-12-08T07:43:38Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z) - The Perceptimatic English Benchmark for Speech Perception Models [11.646802225841153]
ベンチマークは、ABX刺激と91人のアメリカ語を話すリスナーの反応で構成されている。
標準的な英語音声認識器であるDeepSpeechは、英語のリスナーよりも英語の音素識別に特化していることを示す。
論文 参考訳(メタデータ) (2020-05-07T12:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。