論文の概要: Speech Emotion Recognition Using Quaternion Convolutional Neural
Networks
- arxiv url: http://arxiv.org/abs/2111.00404v1
- Date: Sun, 31 Oct 2021 04:06:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 10:17:35.793621
- Title: Speech Emotion Recognition Using Quaternion Convolutional Neural
Networks
- Title(参考訳): 4次畳み込みニューラルネットワークを用いた音声感情認識
- Authors: Aneesh Muppidi and Martin Radfar
- Abstract要約: 本稿では,第4次畳み込みニューラルネットワーク(QCNN)に基づく音声感情認識モデルを提案する。
音声信号のメル・スペクトログラム特徴をRGB四元数領域に符号化する。
RAVDESS、IEMOCAP、EMO-DBデータセットの精度は77.87%、70.46%、88.78%である。
- 参考スコア(独自算出の注目度): 1.776746672434207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although speech recognition has become a widespread technology, inferring
emotion from speech signals still remains a challenge. To address this problem,
this paper proposes a quaternion convolutional neural network (QCNN) based
speech emotion recognition (SER) model in which Mel-spectrogram features of
speech signals are encoded in an RGB quaternion domain. We show that our QCNN
based SER model outperforms other real-valued methods in the Ryerson
Audio-Visual Database of Emotional Speech and Song (RAVDESS, 8-classes)
dataset, achieving, to the best of our knowledge, state-of-the-art results. The
QCNN also achieves comparable results with the state-of-the-art methods in the
Interactive Emotional Dyadic Motion Capture (IEMOCAP 4-classes) and Berlin
EMO-DB (7-classes) datasets. Specifically, the model achieves an accuracy of
77.87\%, 70.46\%, and 88.78\% for the RAVDESS, IEMOCAP, and EMO-DB datasets,
respectively. In addition, our results show that the quaternion unit structure
is better able to encode internal dependencies to reduce its model size
significantly compared to other methods.
- Abstract(参考訳): 音声認識は広く普及している技術だが、音声信号から感情を推測することは依然として課題である。
そこで本研究では,音声信号のメルスペクトル特徴をRGB四元数領域に符号化した,QCNNに基づく音声感情認識(SER)モデルを提案する。
我々のQCNNに基づくSERモデルは、Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS, 8-classes) データセットにおいて、我々の知識、最先端の成果に対して、他の実測手法よりも優れていることを示す。
QCNNはまた、Interactive Emotional Dyadic Motion Capture (IEMOCAP 4-classes)とBerlin EMO-DB (7-classes)データセットの最先端メソッドと同等の結果を得る。
具体的には、RAVDESS、IEMOCAP、EMO-DBデータセットの精度は77.87\%、70.46\%、88.78\%である。
さらに,四元単位構造は内部依存性をエンコードし,他の手法に比べてモデルサイズを大幅に削減できることを示した。
関連論文リスト
- Searching for Effective Preprocessing Method and CNN-based Architecture with Efficient Channel Attention on Speech Emotion Recognition [0.0]
音声感情認識(SER)は、人間の感情をコンピュータモデルで分類する。
本稿では,効率的なチャネルアテンション(ECA)を用いた6層畳み込みニューラルネットワーク(CNN)モデルを提案する。
対話型感情的動的モーションキャプチャー(IEMOCAP)データセットでは、前処理による感情音声の周波数分解能が向上し、感情認識性能が向上する。
論文 参考訳(メタデータ) (2024-09-06T03:17:25Z) - EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z) - Evaluating raw waveforms with deep learning frameworks for speech
emotion recognition [0.0]
特徴抽出段階なしで生のオーディオファイルをディープニューラルネットワークに直接供給するモデルを表現する。
EMO-DB、RAVDESS、TESS、CREMA、SAVEE、TESS+RAVDESSの6つのデータセットを使用します。
提案モデルは,CNNモデルによるEMO-DBの精度90.34%,RAVDESSの精度90.42%,LSTMモデルによるTESSの精度99.48%,CNNモデルによるCREMAの精度69.72%,CNNモデルによるSAVEEの精度85.76%,の精度90.34%を実行する。
論文 参考訳(メタデータ) (2023-07-06T07:27:59Z) - From Environmental Sound Representation to Robustness of 2D CNN Models
Against Adversarial Attacks [82.21746840893658]
本稿では, 各種環境音響表現(スペクトログラム)が, 被害者残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
DWTスペクトログラムでトレーニングしたResNet-18モデルでは高い認識精度が得られたが、このモデルに対する攻撃は敵にとって比較的コストがかかる。
論文 参考訳(メタデータ) (2022-04-14T15:14:08Z) - Learning Speech Emotion Representations in the Quaternion Domain [16.596137913051212]
RH-emoは、実数値モノオーラルスペクトログラムから四元数埋め込みを抽出することを目的とした、新しい半教師付きアーキテクチャである。
RH-emoは、実値の感情分類器と四元値のデコーダと並行して、実値のエンコーダからなるハイブリッドリアル/四元値オートエンコーダネットワークである。
我々は、Iemocap、Ravdess、EmoDb、Tessの4つの一般的なデータセットを用いて、音声感情認識タスクに対するアプローチをテストする。
論文 参考訳(メタデータ) (2022-04-05T17:45:09Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Efficient Speech Emotion Recognition Using Multi-Scale CNN and Attention [2.8017924048352576]
本稿では,音声からの音響情報と語彙情報の両方を利用する,シンプルで効率的なニューラルネットワークアーキテクチャを提案する。
マルチスケール・コンボリューション・レイヤ(MSCNN)を用いて音声とテキストのハイドデン表現を得る手法を提案する。
大規模な実験により,提案手法はIEMOCAPdataset上で従来の最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-08T06:45:42Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。