論文の概要: Improvement and Implementation of a Speech Emotion Recognition Model Based on Dual-Layer LSTM
- arxiv url: http://arxiv.org/abs/2411.09189v1
- Date: Thu, 14 Nov 2024 05:05:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:23:41.138873
- Title: Improvement and Implementation of a Speech Emotion Recognition Model Based on Dual-Layer LSTM
- Title(参考訳): Dual-Layer LSTMに基づく音声感情認識モデルの改良と実装
- Authors: Xiaoran Yang, Shuhan Yu, Wenxi Xu,
- Abstract要約: 本稿では,LSTM層を追加することで,既存の音声感情認識モデルを構築する。
2層LSTMネットワークを介して音声シーケンス内の長期的依存関係をキャプチャすることで、複雑な感情パターンをより正確に認識し分類することができる。
- 参考スコア(独自算出の注目度): 0.40964539027092917
- License:
- Abstract: This paper builds upon an existing speech emotion recognition model by adding an additional LSTM layer to improve the accuracy and processing efficiency of emotion recognition from audio data. By capturing the long-term dependencies within audio sequences through a dual-layer LSTM network, the model can recognize and classify complex emotional patterns more accurately. Experiments conducted on the RAVDESS dataset validated this approach, showing that the modified dual layer LSTM model improves accuracy by 2% compared to the single-layer LSTM while significantly reducing recognition latency, thereby enhancing real-time performance. These results indicate that the dual-layer LSTM architecture is highly suitable for handling emotional features with long-term dependencies, providing a viable optimization for speech emotion recognition systems. This research provides a reference for practical applications in fields like intelligent customer service, sentiment analysis and human-computer interaction.
- Abstract(参考訳): 本稿では、音声データから感情認識の精度と処理効率を向上させるため、LSTM層を追加して既存の音声感情認識モデルを構築する。
2層LSTMネットワークを介して音声シーケンス内の長期的依存関係をキャプチャすることで、複雑な感情パターンをより正確に認識し分類することができる。
RAVDESSデータセットで行った実験では、修正された二重層LSTMモデルにより、単一層LSTMと比較して精度が2%向上し、認識遅延を著しく低減し、リアルタイム性能を向上させることを示し、このアプローチを検証した。
これらの結果から,2層LSTMアーキテクチャは長期依存による情緒的特徴の処理に極めて適しており,音声感情認識システムに有効な最適化が可能であることが示唆された。
この研究は、インテリジェントなカスタマーサービス、感情分析、人間とコンピュータのインタラクションといった分野における実践的な応用への言及を提供する。
関連論文リスト
- BiLSTM and Attention-Based Modulation Classification of Realistic Wireless Signals [2.0650230600617534]
提案モデルでは,無線信号の複数の表現をネットワークへの入力として利用する。
BiLSTM層の後、重要な時間的特徴を強調するために注意層が使用される。
最近のリアルなRML22データセットの実験結果は、提案モデルの性能が99%の精度で向上したことを示している。
論文 参考訳(メタデータ) (2024-08-14T01:17:19Z) - RLEEGNet: Integrating Brain-Computer Interfaces with Adaptive AI for
Intuitive Responsiveness and High-Accuracy Motor Imagery Classification [0.0]
本稿では,Deep Q-Networks (DQN) を用いた強化学習を分類タスクに活用するフレームワークを提案する。
本稿では,OVR(One-Versus-The-Rest)方式で,マルチクラス運動画像(MI)分類のための前処理手法を提案する。
DQNと1D-CNN-LSTMアーキテクチャの統合は意思決定プロセスをリアルタイムで最適化する。
論文 参考訳(メタデータ) (2024-02-09T02:03:13Z) - A Comparative Study of Data Augmentation Techniques for Deep Learning
Based Emotion Recognition [11.928873764689458]
感情認識のための一般的なディープラーニングアプローチを包括的に評価する。
音声信号の長距離依存性が感情認識に重要であることを示す。
スピード/レート向上は、モデル間で最も堅牢なパフォーマンス向上を提供する。
論文 参考訳(メタデータ) (2022-11-09T17:27:03Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - A Mixture of Expert Based Deep Neural Network for Improved ASR [4.993304210475779]
MixNetは、音声認識(ASR)における音響モデルのための新しいディープラーニングアーキテクチャである
自然言語では、異なる音響クラスにまたがる分布の重複は避けられないため、クラス間の誤分類につながる。
提案手法は,単語誤り率の13.6%と10.0%を相対的に削減できることを示す。
論文 参考訳(メタデータ) (2021-12-02T07:26:34Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Improving Deep Learning for HAR with shallow LSTMs [70.94062293989832]
本稿では,DeepConvLSTMを2層LSTMではなく1層LSTMに変更することを提案する。
この結果は、シーケンシャルデータを扱う場合、少なくとも2層LSTMが必要であるという信念とは対照的である。
論文 参考訳(メタデータ) (2021-08-02T08:14:59Z) - Multi-Perspective LSTM for Joint Visual Representation Learning [81.21490913108835]
複数の視点から捉えた視覚的シーケンスで利用可能な内的および対外的関係を学習できる新しいLSTM細胞アーキテクチャを提案する。
私たちのアーキテクチャは、細胞レベルで追加のゲートと記憶を使用する新しい繰り返し共同学習戦略を採用しています。
提案するセルを用いてネットワークを構築することにより、より効果的でリッチな視覚的表現が認識タスクで学習されることを示す。
論文 参考訳(メタデータ) (2021-05-06T16:44:40Z) - Multi-view Frequency LSTM: An Efficient Frontend for Automatic Speech
Recognition [4.753402561130792]
複数のFLSTMスタックの出力を異なるビューで組み合わせることで、シンプルで効率的な修正を行う。
本研究では,マルチビューFLSTM音響モデルにより,話者・音響環境の異なるシナリオに対して,単語誤り率(WER)が3~7%向上することを示す。
論文 参考訳(メタデータ) (2020-06-30T22:19:53Z) - High-Accuracy and Low-Latency Speech Recognition with Two-Head
Contextual Layer Trajectory LSTM Model [46.34788932277904]
我々は,高精度かつ低遅延自動音声認識のための従来のハイブリッドLSTM音響モデルの改良を行った。
高い精度を達成するために、時間的モデリングとターゲット分類タスクを分離する文脈層トラジェクトリLSTM(cltLSTM)を用いる。
シーケンスレベルの教師学生学習による学習戦略をさらに改善する。
論文 参考訳(メタデータ) (2020-03-17T00:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。