論文の概要: Leveraged Mel spectrograms using Harmonic and Percussive Components in
Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2312.10949v1
- Date: Mon, 18 Dec 2023 05:55:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 21:17:46.819906
- Title: Leveraged Mel spectrograms using Harmonic and Percussive Components in
Speech Emotion Recognition
- Title(参考訳): 音声感情認識における高調波成分とパーカッシブ成分を用いたメル分光法
- Authors: David Hason Rudd, Huan Huo, Guandong Xu
- Abstract要約: 本研究では,メルスペクトルの高調波成分とパーカッシブ成分が音声感情認識(SER)に及ぼす影響について検討する。
提案アーキテクチャにおける音響特性を分解し,メル分光図の活用を試みる。
本研究は,リッチなハイブリッド機能マップ構築のための効果的なデータ拡張技術に焦点を当てた。
- 参考スコア(独自算出の注目度): 15.919990281329085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech Emotion Recognition (SER) affective technology enables the intelligent
embedded devices to interact with sensitivity. Similarly, call centre employees
recognise customers' emotions from their pitch, energy, and tone of voice so as
to modify their speech for a high-quality interaction with customers. This work
explores, for the first time, the effects of the harmonic and percussive
components of Mel spectrograms in SER. We attempt to leverage the Mel
spectrogram by decomposing distinguishable acoustic features for exploitation
in our proposed architecture, which includes a novel feature map generator
algorithm, a CNN-based network feature extractor and a multi-layer perceptron
(MLP) classifier. This study specifically focuses on effective data
augmentation techniques for building an enriched hybrid-based feature map. This
process results in a function that outputs a 2D image so that it can be used as
input data for a pre-trained CNN-VGG16 feature extractor. Furthermore, we also
investigate other acoustic features such as MFCCs, chromagram, spectral
contrast, and the tonnetz to assess our proposed framework. A test accuracy of
92.79% on the Berlin EMO-DB database is achieved. Our result is higher than
previous works using CNN-VGG16.
- Abstract(参考訳): 音声感情認識(ser)感情技術は、インテリジェントな組み込みデバイスが感度と対話することを可能にする。
同様に、コールセンターの従業員は、ピッチ、エネルギー、声のトーンから顧客の感情を認識し、顧客との高品質な対話のためにスピーチを変更する。
この研究は、初めてメル分光図の高調波成分と打楽器成分の影響を探求するものである。
本研究では,新しい特徴マップ生成アルゴリズム,cnnに基づくネットワーク特徴抽出器,多層パーセプトロン(mlp)分類器を含む,提案手法を用いて識別可能な音響特徴を分解し,メルスペクトログラムの活用を試みる。
本研究は,リッチなハイブリッド機能マップ構築のための効果的なデータ拡張技術に焦点を当てた。
これにより、2D画像を出力し、事前訓練されたCNN-VGG16特徴抽出器の入力データとして使用できるようにする。
さらに, MFCC, クロマグラム, スペクトルコントラスト, トネッツなどの音響特性についても検討し, 提案手法の評価を行った。
ベルリンのemo-dbデータベースにおけるテスト精度は92.79%である。
その結果,従来のCNN-VGG16よりも高い結果を得た。
関連論文リスト
- FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation [50.9040167152168]
CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。
本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。
人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。
本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
論文 参考訳(メタデータ) (2025-02-06T07:24:34Z) - SigWavNet: Learning Multiresolution Signal Wavelet Network for Speech Emotion Recognition [17.568724398229232]
音声感情認識(SER)は、音声信号の解読から感情状態において重要な役割を果たす。
本稿では,SERのための新しいエンド・ツー・エンド(E2E)深層学習フレームワークを提案する。
ウェーブレットの能力を利用して、時間領域と周波数領域の両方で効果的なローカライズを行う。
論文 参考訳(メタデータ) (2025-02-01T04:18:06Z) - Enhanced Speech Emotion Recognition with Efficient Channel Attention Guided Deep CNN-BiLSTM Framework [0.7864304771129751]
音声感情認識(SER)は、感情コンピューティングの強化と人間とコンピュータの相互作用の領域の強化に不可欠である。
本稿では,注目に基づく局所特徴ブロック(ALFB)を統合し,音声信号から高レベルな特徴ベクトルをキャプチャする軽量なSERアーキテクチャを提案する。
また,グローバルな特徴ブロック(GFB)技術を用いて,音声信号の逐次的,グローバルな情報と長期的依存関係をキャプチャする。
論文 参考訳(メタデータ) (2024-12-13T09:55:03Z) - Keypoint Description by Symmetry Assessment -- Applications in
Biometrics [49.547569925407814]
有限展開によりキーポイント周辺の近傍を記述するモデルに基づく特徴抽出器を提案する。
そのような関数の等曲線は、原点(キーポイント)と推定されたパラメータがよく定義された幾何学的解釈を持つように、高度に対称な w.r.t である。
論文 参考訳(メタデータ) (2023-11-03T00:49:25Z) - EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z) - M2FNet: Multi-modal Fusion Network for Emotion Recognition in
Conversation [1.3864478040954673]
視覚,音声,テキストのモダリティから感情関連特徴を抽出するマルチモーダルフュージョンネットワーク(M2FNet)を提案する。
マルチヘッドアテンションに基づく融合機構を用いて、入力データの感情に富んだ潜在表現を結合する。
提案する特徴抽出器は,音声および視覚データから感情関連特徴を学習するために,適応的マージンに基づく新しい三重項損失関数を用いて訓練される。
論文 参考訳(メタデータ) (2022-06-05T14:18:58Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - Speech Emotion Recognition with Co-Attention based Multi-level Acoustic
Information [21.527784717450885]
音声感情認識は、人間の主観的感情を音声情報のみから理解することを目的としている。
マルチレベル音響情報を用いたエンドツーエンドの音声感情認識システムを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:17:28Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。