論文の概要: EmoAugNet: A Signal-Augmented Hybrid CNN-LSTM Framework for Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2508.06321v1
- Date: Wed, 06 Aug 2025 16:28:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.244011
- Title: EmoAugNet: A Signal-Augmented Hybrid CNN-LSTM Framework for Speech Emotion Recognition
- Title(参考訳): EmoAugNet:音声感情認識のための信号強化ハイブリッドCNN-LSTMフレームワーク
- Authors: Durjoy Chandra Paul, Gaurob Saha, Md Amjad Hossain,
- Abstract要約: EmoAugNetは1次元畳み込みニューラルネットワーク(1D-CNN)で長期記憶層を組み込んだハイブリッドディープラーニングフレームワークで、信頼性の高い音声感情認識(SER)を実現する。
包括的音声データ拡張戦略を用いて,雑音付加,ピッチシフト,時間伸張といった従来の手法と,一般化と過度適合の低減を目的とした新しい組み合わせ型拡張パイプラインを併用した。
我々のReLUアクティベーションモデルでは、重み付け精度95.78%、未重み付け精度92.52%、ELUアクティベーションは1。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing emotional signals in speech has a significant impact on enhancing the effectiveness of human-computer interaction (HCI). This study introduces EmoAugNet, a hybrid deep learning framework, that incorporates Long Short-Term Memory (LSTM) layers with one-dimensional Convolutional Neural Networks (1D-CNN) to enable reliable Speech Emotion Recognition (SER). The quality and variety of the features that are taken from speech signals have a significant impact on how well SER systems perform. A comprehensive speech data augmentation strategy was used to combine both traditional methods, such as noise addition, pitch shifting, and time stretching, with a novel combination-based augmentation pipeline to enhance generalization and reduce overfitting. Each audio sample was transformed into a high-dimensional feature vector using root mean square energy (RMSE), Mel-frequency Cepstral Coefficient (MFCC), and zero-crossing rate (ZCR). Our model with ReLU activation has a weighted accuracy of 95.78\% and unweighted accuracy of 92.52\% on the IEMOCAP dataset and, with ELU activation, has a weighted accuracy of 96.75\% and unweighted accuracy of 91.28\%. On the RAVDESS dataset, we get a weighted accuracy of 94.53\% and 94.98\% unweighted accuracy for ReLU activation and 93.72\% weighted accuracy and 94.64\% unweighted accuracy for ELU activation. These results highlight EmoAugNet's effectiveness in improving the robustness and performance of SER systems through integated data augmentation and hybrid modeling.
- Abstract(参考訳): 音声における感情信号の認識は、ヒューマン・コンピュータ・インタラクション(HCI)の有効性を高める上で大きな影響を及ぼす。
本研究では,Long Short-Term Memory(LSTM)層を1次元畳み込みニューラルネットワーク(1D-CNN)に組み込んだハイブリッドディープラーニングフレームワークであるEmoAugNetを紹介した。
音声信号から得られる特徴の質と多様性は、SERシステムの性能に重大な影響を与える。
包括的音声データ拡張戦略を用いて,雑音付加,ピッチシフト,時間伸張といった従来の手法と,一般化と過度適合の低減を目的とした新しい組み合わせ型拡張パイプラインを併用した。
各オーディオサンプルは、ルート平均二乗エネルギー(RMSE)、メル周波数ケプストラル係数(MFCC)、ゼロクロスレート(ZCR)を用いた高次元特徴ベクトルに変換された。
本モデルでは, 重み付き精度95.78\%, 非重み付き精度92.52\%, 重み付き精度96.75\%, 非重み付き精度91.28\%とする。
RAVDESSデータセットでは、ReLUアクティベーションの重み付け精度が94.53\%、94.98\%、ELUアクティベーションの重み付け精度が93.72\%、および94.64\%である。
これらの結果は,データ拡張とハイブリッドモデリングによるSERシステムの堅牢性と性能向上におけるEmoAugNetの有効性を浮き彫りにしている。
関連論文リスト
- HANS-Net: Hyperbolic Convolution and Adaptive Temporal Attention for Accurate and Generalizable Liver and Tumor Segmentation in CT Imaging [1.3149714289117207]
腹部CT像における肝・腫瘍の正確なセグメンテーションは確実な診断と治療計画に重要である。
ニューラル表現とシナプティック・プラスティック・ネットワーク(HANS-Net)を用いたハイパーボリック・コンボリューションの導入
HANS-Netは、階層的幾何表現のための双曲的畳み込み、マルチスケールテクスチャ学習のためのウェーブレットインスパイアされた分解モジュール、暗黙の神経表現分岐を組み合わせた。
論文 参考訳(メタデータ) (2025-07-15T13:56:37Z) - Advanced Health Misinformation Detection Through Hybrid CNN-LSTM Models Informed by the Elaboration Likelihood Model (ELM) [0.43695508295565777]
本研究では,ソーシャルメディア上での誤情報検出を促進するために,ELM(Elaboration Likelihood Model)を適用した。
本モデルは,EMMに基づく特徴を統合することにより,誤情報分類の検出精度と信頼性を向上させることを目的としている。
改良されたモデルは精度97.37%、精度96.88%、リコール98.50%、F1スコア97.41%、ROC-AUC99.50%を達成した。
論文 参考訳(メタデータ) (2025-07-12T05:44:06Z) - Detection of Intelligent Tampering in Wireless Electrocardiogram Signals Using Hybrid Machine Learning [0.06428333375712122]
本稿では, タンパ検出のためのCNN, ResNet, およびハイブリッドトランスフォーマー-CNNモデルの性能解析を行う。
また、ECGに基づく身元認証のためのSiameseネットワークの性能を評価する。
論文 参考訳(メタデータ) (2025-07-08T21:10:07Z) - Toward Efficient Speech Emotion Recognition via Spectral Learning and Attention [0.5371337604556311]
音声感情認識(SER)は、伝統的に感情分類のための聴覚データ分析に依存している。
我々は,Mel-Frequency Cepstral Coefficients (MFCCs) をスペクトル特性として用いて,計算的感情処理と人間の聴覚知覚のギャップを埋める。
データ拡張技術を統合する新しい1D-CNNベースのSERフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-04T01:55:49Z) - Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。
本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。
HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文 参考訳(メタデータ) (2025-01-06T14:31:25Z) - Hyper-parameter Adaptation of Conformer ASR Systems for Elderly and
Dysarthric Speech Recognition [64.9816313630768]
ファインチューニングは、多くの非高齢および健康な音声事前訓練モデルを利用するためにしばしば用いられる。
本稿では,Librispeech corpus 上で事前学習した Conformer ASR システムのハイパーパラメータ適応について検討する。
論文 参考訳(メタデータ) (2023-06-27T07:49:35Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。