論文の概要: EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2310.12851v1
- Date: Thu, 19 Oct 2023 16:02:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 14:24:41.257931
- Title: EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks
- Title(参考訳): EmoDiarize:畳み込みニューラルネットワークを用いた音声信号からの話者ダイアリゼーションと感情同定
- Authors: Hanan Hamza, Fiza Gafoor, Fathima Sithara, Gayathri Anil, V. S. Anoop
- Abstract要約: 本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the era of advanced artificial intelligence and human-computer
interaction, identifying emotions in spoken language is paramount. This
research explores the integration of deep learning techniques in speech emotion
recognition, offering a comprehensive solution to the challenges associated
with speaker diarization and emotion identification. It introduces a framework
that combines a pre-existing speaker diarization pipeline and an emotion
identification model built on a Convolutional Neural Network (CNN) to achieve
higher precision. The proposed model was trained on data from five speech
emotion datasets, namely, RAVDESS, CREMA-D, SAVEE, TESS, and Movie Clips, out
of which the latter is a speech emotion dataset created specifically for this
research. The features extracted from each sample include Mel Frequency
Cepstral Coefficients (MFCC), Zero Crossing Rate (ZCR), Root Mean Square (RMS),
and various data augmentation algorithms like pitch, noise, stretch, and shift.
This feature extraction approach aims to enhance prediction accuracy while
reducing computational complexity. The proposed model yields an unweighted
accuracy of 63%, demonstrating remarkable efficiency in accurately identifying
emotional states within speech signals.
- Abstract(参考訳): 高度な人工知能と人間とコンピュータの相互作用の時代には、音声言語における感情の識別が最重要である。
本研究は,話者ダイアリゼーションと感情識別に関わる課題に対する包括的解決策として,ディープラーニング手法の音声感情認識への統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせて、より高い精度を実現するフレームワークを導入する。
提案モデルは5つの音声感情データセット(raves, crema-d, savee, tess, movie clips)から得られたデータに基づいて学習され,本研究用に特別に作成された音声感情データセットである。
それぞれのサンプルから抽出された特徴としては、Mel Frequency Cepstral Coefficients (MFCC)、Zero Crossing Rate (ZCR)、Root Mean Square (RMS)、ピッチ、ノイズ、ストレッチ、シフトといったさまざまなデータ拡張アルゴリズムがある。
この特徴抽出手法は計算複雑性を低減しつつ予測精度を向上させることを目的としている。
提案モデルは63%の重み付け精度を示し,音声信号中の感情状態を正確に識別する上で有意な効率を示した。
関連論文リスト
- Speaker Emotion Recognition: Leveraging Self-Supervised Models for Feature Extraction Using Wav2Vec2 and HuBERT [0.0]
本研究では, 自己教師型トランスフォーマーモデルであるWav2Vec2とHuBERTを用いて, 話者の感情を音声から判断する。
提案手法は、RAVDESS、SHEMO、SAVEE、AESDD、Emo-DBを含む計算可能なデータセットに基づいて評価される。
論文 参考訳(メタデータ) (2024-11-05T10:06:40Z) - Learning Speech Emotion Representations in the Quaternion Domain [16.596137913051212]
RH-emoは、実数値モノオーラルスペクトログラムから四元数埋め込みを抽出することを目的とした、新しい半教師付きアーキテクチャである。
RH-emoは、実値の感情分類器と四元値のデコーダと並行して、実値のエンコーダからなるハイブリッドリアル/四元値オートエンコーダネットワークである。
我々は、Iemocap、Ravdess、EmoDb、Tessの4つの一般的なデータセットを用いて、音声感情認識タスクに対するアプローチをテストする。
論文 参考訳(メタデータ) (2022-04-05T17:45:09Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Efficient Speech Emotion Recognition Using Multi-Scale CNN and Attention [2.8017924048352576]
本稿では,音声からの音響情報と語彙情報の両方を利用する,シンプルで効率的なニューラルネットワークアーキテクチャを提案する。
マルチスケール・コンボリューション・レイヤ(MSCNN)を用いて音声とテキストのハイドデン表現を得る手法を提案する。
大規模な実験により,提案手法はIEMOCAPdataset上で従来の最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-08T06:45:42Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - Continuous Emotion Recognition via Deep Convolutional Autoencoder and
Support Vector Regressor [70.2226417364135]
マシンはユーザの感情状態を高い精度で認識できることが不可欠である。
ディープニューラルネットワークは感情を認識する上で大きな成功を収めている。
表情認識に基づく連続的感情認識のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-01-31T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。