論文の概要: A Novel Hybrid Deep Learning Technique for Speech Emotion Detection using Feature Engineering
- arxiv url: http://arxiv.org/abs/2507.07046v1
- Date: Wed, 09 Jul 2025 17:07:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.696098
- Title: A Novel Hybrid Deep Learning Technique for Speech Emotion Detection using Feature Engineering
- Title(参考訳): 特徴工学を用いた音声感情検出のためのハイブリッドディープラーニング手法
- Authors: Shahana Yasmin Chowdhury, Bithi Banik, Md Tamjidul Hoque, Shreya Banerjee,
- Abstract要約: 提案したDCRF-BiLSTMモデルは,中立,幸福,悲しみ,怒り,恐怖,嫌悪,驚きという7つの感情を認識するために用いられる。
このモデルは、RAVDESSの97.83%を含む個々のデータセットで高い精度を達成する。
組み合わせた(R+T+S)データセットでは、98.82%の精度を達成し、以前報告された結果を上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Nowadays, speech emotion recognition (SER) plays a vital role in the field of human-computer interaction (HCI) and the evolution of artificial intelligence (AI). Our proposed DCRF-BiLSTM model is used to recognize seven emotions: neutral, happy, sad, angry, fear, disgust, and surprise, which are trained on five datasets: RAVDESS (R), TESS (T), SAVEE (S), EmoDB (E), and Crema-D (C). The model achieves high accuracy on individual datasets, including 97.83% on RAVDESS, 97.02% on SAVEE, 95.10% for CREMA-D, and a perfect 100% on both TESS and EMO-DB. For the combined (R+T+S) datasets, it achieves 98.82% accuracy, outperforming previously reported results. To our knowledge, no existing study has evaluated a single SER model across all five benchmark datasets (i.e., R+T+S+C+E) simultaneously. In our work, we introduce this comprehensive combination and achieve a remarkable overall accuracy of 93.76%. These results confirm the robustness and generalizability of our DCRF-BiLSTM framework across diverse datasets.
- Abstract(参考訳): 近年,人間とコンピュータの相互作用(HCI)や人工知能(AI)の進化において,音声感情認識(SER)が重要な役割を担っている。
提案したDCRF-BiLSTMモデルは, RAVDESS(R), TESS(T), SAVEE(S), EmoDB(E), Crema-D(C)の5つのデータセットでトレーニングされた,中立, 幸福, 悲しみ, 怒り, 恐怖, 嫌悪, 驚きの7つの感情を認識するために使用される。
このモデルは、RAVDESSで97.83%、SAVEEで97.02%、CREMA-Dで95.10%、TESSとEMO-DBで100%完全である。
組み合わせた(R+T+S)データセットでは、98.82%の精度を達成し、以前報告された結果を上回っている。
我々の知る限り、既存の研究では5つのベンチマークデータセット(R+T+S+C+E)を同時に1つのSERモデルを評価していない。
本研究では、この総合的な組み合わせを導入し、93.76%の顕著な総合的精度を達成した。
これらの結果から,多種多様なデータセットにまたがるDCRF-BiLSTMフレームワークの堅牢性と一般化性が確認された。
関連論文リスト
- Toward Efficient Speech Emotion Recognition via Spectral Learning and Attention [0.5371337604556311]
音声感情認識(SER)は、伝統的に感情分類のための聴覚データ分析に依存している。
我々は,Mel-Frequency Cepstral Coefficients (MFCCs) をスペクトル特性として用いて,計算的感情処理と人間の聴覚知覚のギャップを埋める。
データ拡張技術を統合する新しい1D-CNNベースのSERフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-04T01:55:49Z) - Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。
定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。
提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文 参考訳(メタデータ) (2025-05-18T21:46:45Z) - Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。
本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。
HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文 参考訳(メタデータ) (2025-01-06T14:31:25Z) - Merging synthetic and real embryo data for advanced AI predictions [69.07284335967019]
我々は、作成した2つのデータセットを用いて、2つの生成モデルをトレーニングし、既存の1つのデータセットを使用して、様々な細胞レベルで合成胚画像を生成する。
これらは実画像と組み合わせて、胚細胞ステージ予測のための分類モデルを訓練した。
その結果,実データと合成画像を組み合わせることで分類性能が向上し,実データのみをトレーニングした場合の94.5%に比べて97%の精度が得られた。
論文 参考訳(メタデータ) (2024-12-02T08:24:49Z) - Handling Geometric Domain Shifts in Semantic Segmentation of Surgical RGB and Hyperspectral Images [67.66644395272075]
本稿では,幾何学的アウト・オブ・ディストリビューションデータに直面する場合の,最先端のセマンティックセマンティックセマンティクスモデルの最初の解析を行う。
本稿では, 汎用性を高めるために, 有機移植(Organ Transplantation)と呼ばれる拡張技術を提案する。
我々の拡張技術は、RGBデータに対して最大67%、HSIデータに対して90%のSOAモデル性能を改善し、実際のOODテストデータに対して、分配内パフォーマンスのレベルでのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T19:13:15Z) - Evaluating raw waveforms with deep learning frameworks for speech
emotion recognition [0.0]
特徴抽出段階なしで生のオーディオファイルをディープニューラルネットワークに直接供給するモデルを表現する。
EMO-DB、RAVDESS、TESS、CREMA、SAVEE、TESS+RAVDESSの6つのデータセットを使用します。
提案モデルは,CNNモデルによるEMO-DBの精度90.34%,RAVDESSの精度90.42%,LSTMモデルによるTESSの精度99.48%,CNNモデルによるCREMAの精度69.72%,CNNモデルによるSAVEEの精度85.76%,の精度90.34%を実行する。
論文 参考訳(メタデータ) (2023-07-06T07:27:59Z) - LDEB -- Label Digitization with Emotion Binarization and Machine
Learning for Emotion Recognition in Conversational Dialogues [0.0]
会話における感情認識(ERC)は、会話AIとその応用の発展に不可欠である。
会話の対話は、各対話が感情の特徴記述子と感情タイプ(またはラベル)の関連を絡めるネストされた感情を描写するユニークな問題を示す。
テキスト正規化と7ビットディジタル符号化技術を用いて、ツイストをアンタングル化するLDEB(Label Digitization with Emotion Binarization)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-03T20:37:46Z) - A Comparative Study of Data Augmentation Techniques for Deep Learning
Based Emotion Recognition [11.928873764689458]
感情認識のための一般的なディープラーニングアプローチを包括的に評価する。
音声信号の長距離依存性が感情認識に重要であることを示す。
スピード/レート向上は、モデル間で最も堅牢なパフォーマンス向上を提供する。
論文 参考訳(メタデータ) (2022-11-09T17:27:03Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。