論文の概要: FSER: Deep Convolutional Neural Networks for Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2109.07916v1
- Date: Wed, 15 Sep 2021 05:03:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-18 11:11:04.022153
- Title: FSER: Deep Convolutional Neural Networks for Speech Emotion Recognition
- Title(参考訳): FSER:音声感情認識のための深層畳み込みニューラルネットワーク
- Authors: Bonaventure F. P. Dossou and Yeno K. S. Gbenou
- Abstract要約: 本研究では、4つの有効な音声データベース上で訓練された音声感情認識モデルFSERを紹介する。
各ベンチマークデータセットでは、FSERはこれまでに導入された最高のモデルよりも優れており、最先端のパフォーマンスを実現している。
FSERは、精神的および感情的な医療を改善するために使われる可能性がある。
- 参考スコア(独自算出の注目度): 0.015863809575305417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using mel-spectrograms over conventional MFCCs features, we assess the
abilities of convolutional neural networks to accurately recognize and classify
emotions from speech data. We introduce FSER, a speech emotion recognition
model trained on four valid speech databases, achieving a high-classification
accuracy of 95,05\%, over 8 different emotion classes: anger, anxiety, calm,
disgust, happiness, neutral, sadness, surprise. On each benchmark dataset, FSER
outperforms the best models introduced so far, achieving a state-of-the-art
performance. We show that FSER stays reliable, independently of the language,
sex identity, and any other external factor. Additionally, we describe how FSER
could potentially be used to improve mental and emotional health care and how
our analysis and findings serve as guidelines and benchmarks for further works
in the same direction.
- Abstract(参考訳): 従来のMFCC機能に対するメル・スペクトログラムを用いて、音声データから感情を正確に認識し分類する畳み込みニューラルネットワークの能力を評価する。
4つの有効な音声データベースで訓練された音声感情認識モデルfserを導入し,怒り,不安,落ち着き,嫌悪,幸福,中立,悲しみ,驚きという8種類の感情クラスから95,05\%の高分類精度を達成する。
各ベンチマークデータセットでは、FSERはこれまでに導入された最高のモデルよりも優れており、最先端のパフォーマンスを実現している。
FSERは、言語、性同一性、その他の外部要因から独立して、信頼性を維持していることを示す。
さらに、FSERが精神的および感情的な医療を改善するためにどのように使えるか、そして我々の分析と調査結果が、同じ方向に進むためのガイドラインとベンチマークとしてどのように役立つかを述べる。
関連論文リスト
- Speaker Emotion Recognition: Leveraging Self-Supervised Models for Feature Extraction Using Wav2Vec2 and HuBERT [0.0]
本研究では, 自己教師型トランスフォーマーモデルであるWav2Vec2とHuBERTを用いて, 話者の感情を音声から判断する。
提案手法は、RAVDESS、SHEMO、SAVEE、AESDD、Emo-DBを含む計算可能なデータセットに基づいて評価される。
論文 参考訳(メタデータ) (2024-11-05T10:06:40Z) - Improving Speech-based Emotion Recognition with Contextual Utterance Analysis and LLMs [2.8728982844941178]
音声感情認識(SER)は、音声言語から感情状態を特定することに焦点を当てている。
データ信頼性を確保するために、まず利用可能なすべての書き起こしを改良する新しいアプローチを提案する。
次に、各会話をより小さな対話に分割し、これらの対話を文脈として使用し、対話内のターゲット発話の感情を予測する。
論文 参考訳(メタデータ) (2024-10-27T04:23:34Z) - Speech Emotion Recognition Using CNN and Its Use Case in Digital Healthcare [0.0]
人間の感情と感情状態を音声から識別するプロセスは、音声感情認識(SER)として知られている。
私の研究は、畳み込みニューラルネットワーク(CNN)を使って、音声録音と感情を区別し、異なる感情の範囲に応じてラベル付けすることを目指しています。
私は、機械学習手法を用いて、供給された音声ファイルから感情を識別する機械学習モデルを開発した。
論文 参考訳(メタデータ) (2024-06-15T21:33:03Z) - Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on
Data-Driven Deep Learning [70.30713251031052]
本研究では,データ駆動型深層学習モデル,すなわちSenseNetを提案する。
実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。
論文 参考訳(メタデータ) (2022-06-15T01:25:32Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Attribute Inference Attack of Speech Emotion Recognition in Federated
Learning Settings [56.93025161787725]
Federated Learning(FL)は、クライアントをコーディネートして、ローカルデータを共有せずにモデルを協調的にトレーニングする分散機械学習パラダイムである。
本稿では,共有勾配やモデルパラメータからクライアントの機密属性情報を推測する属性推論攻撃フレームワークを提案する。
FLを用いて学習したSERシステムに対して,属性推論攻撃が達成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-26T16:50:42Z) - StrengthNet: Deep Learning-based Emotion Strength Assessment for
Emotional Speech Synthesis [82.39099867188547]
本稿では,強度予測のための深層学習に基づく感情力評価ネットワークを提案する。
本モデルは,音響エンコーダ,強度予測器,補助感情予測器を含む構造を持つマルチタスク学習フレームワークに適合する。
実験により,提案した強度ネットの予測感情強度は,見知らぬ音声に対する地上の真理スコアと高い相関性を示した。
論文 参考訳(メタデータ) (2021-10-07T03:16:15Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z) - Detecting Emotion Primitives from Speech and their use in discerning
Categorical Emotions [16.886826928295203]
感情は人間同士のコミュニケーションにおいて重要な役割を担い、幸福やフラストレーション、誠実さといった感情を伝えることができる。
この研究は、感情プリミティブが、幸福、嫌悪、軽蔑、怒り、驚きといったカテゴリー的感情を中性的なスピーチから検出する方法について研究した。
以上の結果から, 覚醒と支配は, 感情のより優れた検出方法であった。
論文 参考訳(メタデータ) (2020-01-31T03:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。