論文の概要: Speech Emotion Detection Based on MFCC and CNN-LSTM Architecture
- arxiv url: http://arxiv.org/abs/2501.10666v1
- Date: Sat, 18 Jan 2025 06:15:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:19:42.727677
- Title: Speech Emotion Detection Based on MFCC and CNN-LSTM Architecture
- Title(参考訳): MFCCとCNN-LSTMアーキテクチャに基づく音声感情検出
- Authors: Qianhe Ouyang,
- Abstract要約: 本稿では,最初の音声入力をウェーブプロットとスペクトルに処理して分析し,特徴抽出の対象としてMFCCを含む複数の特徴に集中する。
このアーキテクチャは、テストセットに対して総合的に61.07%の精度を達成し、怒りと中立性の検出はそれぞれ75.31%と71.70%のパフォーマンスに達した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Emotion detection techniques have been applied to multiple cases mainly from facial image features and vocal audio features, of which the latter aspect is disputed yet not only due to the complexity of speech audio processing but also the difficulties of extracting appropriate features. Part of the SAVEE and RAVDESS datasets are selected and combined as the dataset, containing seven sorts of common emotions (i.e. happy, neutral, sad, anger, disgust, fear, and surprise) and thousands of samples. Based on the Librosa package, this paper processes the initial audio input into waveplot and spectrum for analysis and concentrates on multiple features including MFCC as targets for feature extraction. The hybrid CNN-LSTM architecture is adopted by virtue of its strong capability to deal with sequential data and time series, which mainly consists of four convolutional layers and three long short-term memory layers. As a result, the architecture achieved an accuracy of 61.07% comprehensively for the test set, among which the detection of anger and neutral reaches a performance of 75.31% and 71.70% respectively. It can also be concluded that the classification accuracy is dependent on the properties of emotion to some extent, with frequently-used and distinct-featured emotions having less probability to be misclassified into other categories. Emotions like surprise whose meaning depends on the specific context are more likely to confuse with positive or negative emotions, and negative emotions also have a possibility to get mixed with each other.
- Abstract(参考訳): 感情検出技術は, 音声処理の複雑さだけでなく, 適切な特徴の抽出が困難であることから, 顔画像の特徴や発声音声の特徴から, 複数の症例に適用されている。
SAVEEとRAVDESSデータセットの一部はデータセットとして選択され、何千ものサンプルを含む7種類の共通感情(幸福、中立、悲しみ、怒り、嫌悪感、恐怖、驚き)を含む。
本稿では,Librosaパッケージをベースとして,最初の音声入力をウェーブプロットとスペクトルに処理して分析を行い,特徴抽出のターゲットとしてMFCCを含む複数の特徴に集中する。
ハイブリッドCNN-LSTMアーキテクチャは、4つの畳み込み層と3つの長期記憶層で構成されるシーケンシャルなデータと時系列を扱う強力な能力によって採用されている。
その結果、アーキテクチャはテストセットに対して総合的に61.07%の精度を達成し、怒りと中立性の検出はそれぞれ75.31%と71.70%に到達した。
また、分類精度は感情の性質にある程度依存しており、しばしば使われ、異なる特徴を持つ感情は、他のカテゴリーに誤分類される可能性が低いと結論付けることができる。
特定の文脈に依存しているような驚きのような感情は、肯定的な感情や否定的な感情と混同しがちであり、否定的な感情は互いに混同される可能性がある。
関連論文リスト
- Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。
本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。
HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文 参考訳(メタデータ) (2025-01-06T14:31:25Z) - learning discriminative features from spectrograms using center loss for speech emotion recognition [62.13177498013144]
本稿では,感情認識のための可変長スペクトログラムから識別特徴を学習するための新しい手法を提案する。
ソフトマックスのクロスエントロピー損失は、異なる感情カテゴリの特徴を分離可能とし、センターロスは、同じ感情カテゴリに属する特徴をその中心に効率的に引き出す。
論文 参考訳(メタデータ) (2025-01-02T06:52:28Z) - Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。
しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。
テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文 参考訳(メタデータ) (2024-12-12T11:30:41Z) - Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文 参考訳(メタデータ) (2024-06-17T03:01:22Z) - Construction and Evaluation of Mandarin Multimodal Emotional Speech
Database [0.0]
次元アノテーションの妥当性は次元アノテーションデータの統計的解析によって検証される。
7つの感情の認識率は、音響データだけで約82%である。
データベースは高品質であり、音声分析研究の重要な情報源として利用することができる。
論文 参考訳(メタデータ) (2024-01-14T17:56:36Z) - An Extended Variational Mode Decomposition Algorithm Developed Speech
Emotion Recognition Performance [15.919990281329085]
本研究では,有意な音声特徴を識別するための変分モード分解アルゴリズムであるVGG-optiVMDを提案する。
様々な特徴ベクトルを用いて、異なるデータベース上のVGG16ネットワークをトレーニングし、VGG-optiVMDと信頼性を評価する。
その結果,信号サンプル率の微調整と分解パラメータとの相乗関係を分類精度で確認した。
論文 参考訳(メタデータ) (2023-12-18T05:24:03Z) - EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z) - The MuSe 2023 Multimodal Sentiment Analysis Challenge: Mimicked
Emotions, Cross-Cultural Humour, and Personalisation [69.13075715686622]
MuSe 2023は、現代の3つの異なるマルチモーダル感情と感情分析の問題に対処する共有タスクの集合である。
MuSe 2023は、さまざまな研究コミュニティから幅広いオーディエンスを集めようとしている。
論文 参考訳(メタデータ) (2023-05-05T08:53:57Z) - Emotional Expression Detection in Spoken Language Employing Machine
Learning Algorithms [0.0]
人間の声の特徴は、ピッチ、音色、大声、声調に分類される。
多くの出来事において、人間が話すときの異なる声質で感情を表現することが観察されている。
本研究の主な目的は、スペクトル記述子、周期性、調和性といったいくつかの機能を用いて、人間の異なる感情を認識することである。
論文 参考訳(メタデータ) (2023-04-20T17:57:08Z) - Feature Selection Enhancement and Feature Space Visualization for
Speech-Based Emotion Recognition [2.223733768286313]
音声の感情認識を改善する音声特徴強調戦略を提案する。
この戦略は、文学で使われている最先端の手法と比較される。
EMO-DBデータセットでは7つの感情のうち6つの感情のうち11.5%、RAVDESSデータセットでは8つの感情のうち7つの感情のうち13.8%が認識された。
論文 参考訳(メタデータ) (2022-08-19T11:29:03Z) - Seeking Subjectivity in Visual Emotion Distribution Learning [93.96205258496697]
視覚感情分析(VEA)は、人々の感情を異なる視覚刺激に向けて予測することを目的としている。
既存の手法では、集団投票プロセスにおいて固有の主観性を無視して、統合されたネットワークにおける視覚的感情分布を予測することが多い。
視覚的感情分布の主観性を調べるために,新しいテキストサブジェクティビティ評価ネットワーク(SAMNet)を提案する。
論文 参考訳(メタデータ) (2022-07-25T02:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。