論文の概要: Enhancing Speech Emotion Recognition using Dynamic Spectral Features and Kalman Smoothing
- arxiv url: http://arxiv.org/abs/2601.18908v1
- Date: Mon, 26 Jan 2026 19:18:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.04009
- Title: Enhancing Speech Emotion Recognition using Dynamic Spectral Features and Kalman Smoothing
- Title(参考訳): 動的スペクトル特徴とカルマン平滑化を用いた音声感情認識の強化
- Authors: Marouane El Hizabri, Abdelfattah Bezzaz, Ismail Hayoukane, Youssef Taki,
- Abstract要約: 音声感情認識システムは、音声信号に音響ノイズがある場合の感情を誤分類することが多い。
我々はKalman SmoothingアルゴリズムとともにDynamic Spectral機能(DeltasとDelta-Deltas)を使った動的機能を追加した。
このアプローチはノイズを低減し、感情分類を改善する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speech Emotion Recognition systems often use static features like Mel-Frequency Cepstral Coefficients (MFCCs), Zero Crossing Rate (ZCR), and Root Mean Square Energy (RMSE). Because of this, they can misclassify emotions when there is acoustic noise in vocal signals. To address this, we added dynamic features using Dynamic Spectral features (Deltas and Delta-Deltas) along with the Kalman Smoothing algorithm. This approach reduces noise and improves emotion classification. Since emotion changes over time, the Kalman Smoothing filter also helped make the classifier outputs more stable. Tests on the RAVDESS dataset showed that this method achieved a state-of-the-art accuracy of 87\% and reduced misclassification between emotions with similar acoustic features
- Abstract(参考訳): 音声感情認識システムは、Mel-Frequency Cepstral Coefficients (MFCC)、Zero Crossing Rate (ZCR)、Root Mean Square Energy (RMSE)などの静的機能を使用することが多い。
このため、音声信号に音響ノイズがある場合、感情を誤分類することができる。
これを解決するために、動的スペクトル機能(DeltasとDelta-Deltas)とKalman Smoothingアルゴリズムを使った動的機能を追加しました。
このアプローチはノイズを低減し、感情分類を改善する。
感情は時間とともに変化するため、カルマン・スムーシングフィルタは分類器の出力をより安定させるのにも役立った。
RAVDESSデータセットを用いた実験では、この手法は87 %の最先端精度を実現し、類似した音響特性を持つ感情間の誤分類を低減した。
関連論文リスト
- Enhancing Speech Emotion Recognition with Graph-Based Multimodal Fusion and Prosodic Features for the Speech Emotion Recognition in Naturalistic Conditions Challenge at Interspeech 2025 [64.59170359368699]
自然条件課題におけるInterSPEECH 2025音声感情認識のための頑健なシステムを提案する。
提案手法は,最先端の音声モデルと韻律的・スペクトル的手法によって強化されたテキスト特徴を組み合わせる。
論文 参考訳(メタデータ) (2025-06-02T13:46:02Z) - DiEmo-TTS: Disentangled Emotion Representations via Self-Supervised Distillation for Cross-Speaker Emotion Transfer in Text-to-Speech [49.128847336227636]
音声合成における話者間感情伝達は、正確な感情モデリングのための話者非依存感情埋め込みの抽出に依存する。
本研究では,感情情報の損失を最小限に抑え,話者のアイデンティティを保持する自己教師型蒸留法であるDiEmo-TTSを提案する。
論文 参考訳(メタデータ) (2025-05-26T08:47:39Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - learning discriminative features from spectrograms using center loss for speech emotion recognition [62.13177498013144]
本稿では,感情認識のための可変長スペクトログラムから識別特徴を学習するための新しい手法を提案する。
ソフトマックスのクロスエントロピー損失は、異なる感情カテゴリの特徴を分離可能とし、センターロスは、同じ感情カテゴリに属する特徴をその中心に効率的に引き出す。
論文 参考訳(メタデータ) (2025-01-02T06:52:28Z) - EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z) - Prompting Audios Using Acoustic Properties For Emotion Representation [36.275219004598874]
感情を表現するために自然言語記述(あるいはプロンプト)の使用を提案する。
我々は、ピッチ、強度、発話速度、調音率などの感情に相関する音響特性を用いて、自動的にプロンプトを生成する。
その結果,様々なPrecision@K測定値において,音響的プロンプトがモデルの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-03T13:06:58Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。