論文の概要: Enhanced Speech Emotion Recognition with Efficient Channel Attention Guided Deep CNN-BiLSTM Framework
- arxiv url: http://arxiv.org/abs/2412.10011v1
- Date: Fri, 13 Dec 2024 09:55:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:03:32.524589
- Title: Enhanced Speech Emotion Recognition with Efficient Channel Attention Guided Deep CNN-BiLSTM Framework
- Title(参考訳): ディープCNN-BiLSTMフレームワークを用いた高能率チャネル注意による音声感情認識
- Authors: Niloy Kumar Kundu, Sarah Kobir, Md. Rayhan Ahmed, Tahmina Aktar, Niloya Roy,
- Abstract要約: 音声感情認識(SER)は、感情コンピューティングの強化と人間とコンピュータの相互作用の領域の強化に不可欠である。
本稿では,注目に基づく局所特徴ブロック(ALFB)を統合し,音声信号から高レベルな特徴ベクトルをキャプチャする軽量なSERアーキテクチャを提案する。
また,グローバルな特徴ブロック(GFB)技術を用いて,音声信号の逐次的,グローバルな情報と長期的依存関係をキャプチャする。
- 参考スコア(独自算出の注目度): 0.7864304771129751
- License:
- Abstract: Speech emotion recognition (SER) is crucial for enhancing affective computing and enriching the domain of human-computer interaction. However, the main challenge in SER lies in selecting relevant feature representations from speech signals with lower computational costs. In this paper, we propose a lightweight SER architecture that integrates attention-based local feature blocks (ALFBs) to capture high-level relevant feature vectors from speech signals. We also incorporate a global feature block (GFB) technique to capture sequential, global information and long-term dependencies in speech signals. By aggregating attention-based local and global contextual feature vectors, our model effectively captures the internal correlation between salient features that reflect complex human emotional cues. To evaluate our approach, we extracted four types of spectral features from speech audio samples: mel-frequency cepstral coefficients, mel-spectrogram, root mean square value, and zero-crossing rate. Through a 5-fold cross-validation strategy, we tested the proposed method on five multi-lingual standard benchmark datasets: TESS, RAVDESS, BanglaSER, SUBESCO, and Emo-DB, and obtained a mean accuracy of 99.65%, 94.88%, 98.12%, 97.94%, and 97.19% respectively. The results indicate that our model achieves state-of-the-art (SOTA) performance compared to most existing methods.
- Abstract(参考訳): 音声感情認識(SER)は、感情コンピューティングの強化と人間とコンピュータの相互作用の領域の強化に不可欠である。
しかし、SERの主な課題は、より少ない計算コストで音声信号から関連する特徴表現を選択することである。
本稿では,注目に基づく局所特徴ブロック(ALFB)を統合した軽量なSERアーキテクチャを提案する。
また,グローバルな特徴ブロック(GFB)技術を用いて,音声信号の逐次的,グローバルな情報と長期的依存関係をキャプチャする。
注意に基づく局所的特徴ベクトルとグローバルな文脈的特徴ベクトルを集約することにより、複雑な人間の感情的手がかりを反映する有能な特徴間の内部的相関を効果的に捉えることができる。
提案手法を評価するため,音声サンプルからメル周波数ケプストラム係数,メルスペクトル,ルート平均2乗値,ゼロクロスレートの4種類のスペクトル特徴を抽出した。
5倍のクロスバリデーション戦略により,TESS,RAVDESS,BanglaSER,SUBESCO,Emo-DBの5つの標準ベンチマークデータセットを用いて提案手法を検証し,平均精度99.65%,94.88%,98.12%,97.94%,97.19%を得た。
以上の結果から,本モデルは既存の手法に比べてSOTA(State-of-the-art)の性能が向上することが示唆された。
関連論文リスト
- Noise-Resilient Unsupervised Graph Representation Learning via Multi-Hop Feature Quality Estimation [53.91958614666386]
グラフニューラルネットワーク(GNN)に基づく教師なしグラフ表現学習(UGRL)
マルチホップ特徴量推定(MQE)に基づく新しいUGRL法を提案する。
論文 参考訳(メタデータ) (2024-07-29T12:24:28Z) - OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion [88.59397418187226]
我々はOV-DINOと呼ばれる新しいオープン語彙検出手法を提案する。
言語対応の選択的融合を統一フレームワークに組み込んだ、さまざまな大規模データセットで事前トレーニングされている。
提案するOV-DINOのオープン語彙検出ベンチマークにおける性能評価を行った。
論文 参考訳(メタデータ) (2024-07-10T17:05:49Z) - EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z) - TOPIQ: A Top-down Approach from Semantics to Distortions for Image
Quality Assessment [53.72721476803585]
画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目の当たりにしたコンピュータビジョンの基本課題である。
本稿では,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。
提案手法の重要な要素は,低レベル特徴に対するアテンションマップを算出した,クロススケールアテンション機構である。
論文 参考訳(メタデータ) (2023-08-06T09:08:37Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - Speech Emotion Recognition with Global-Aware Fusion on Multi-scale
Feature Representation [5.20970006627454]
音声認識(SER)は、音声データから感情ラベルを予測するための基本的なタスクである。
最近の研究は、主に畳み込みニューラルネットワーク(CNN)を使用して、固定スケールの特徴表現の局所的な注意マップを学ぶことに重点を置いている。
本稿では,GLobal-Aware Multi-scale(GLAM)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-04-12T07:03:04Z) - Learning Speech Emotion Representations in the Quaternion Domain [16.596137913051212]
RH-emoは、実数値モノオーラルスペクトログラムから四元数埋め込みを抽出することを目的とした、新しい半教師付きアーキテクチャである。
RH-emoは、実値の感情分類器と四元値のデコーダと並行して、実値のエンコーダからなるハイブリッドリアル/四元値オートエンコーダネットワークである。
我々は、Iemocap、Ravdess、EmoDb、Tessの4つの一般的なデータセットを用いて、音声感情認識タスクに対するアプローチをテストする。
論文 参考訳(メタデータ) (2022-04-05T17:45:09Z) - Speech Emotion Recognition Using Quaternion Convolutional Neural
Networks [1.776746672434207]
本稿では,第4次畳み込みニューラルネットワーク(QCNN)に基づく音声感情認識モデルを提案する。
音声信号のメル・スペクトログラム特徴をRGB四元数領域に符号化する。
RAVDESS、IEMOCAP、EMO-DBデータセットの精度は77.87%、70.46%、88.78%である。
論文 参考訳(メタデータ) (2021-10-31T04:06:07Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Efficient Speech Emotion Recognition Using Multi-Scale CNN and Attention [2.8017924048352576]
本稿では,音声からの音響情報と語彙情報の両方を利用する,シンプルで効率的なニューラルネットワークアーキテクチャを提案する。
マルチスケール・コンボリューション・レイヤ(MSCNN)を用いて音声とテキストのハイドデン表現を得る手法を提案する。
大規模な実験により,提案手法はIEMOCAPdataset上で従来の最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-08T06:45:42Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。