論文の概要: Efficient Speech Emotion Recognition Using Multi-Scale CNN and Attention
- arxiv url: http://arxiv.org/abs/2106.04133v1
- Date: Tue, 8 Jun 2021 06:45:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 05:57:03.682985
- Title: Efficient Speech Emotion Recognition Using Multi-Scale CNN and Attention
- Title(参考訳): マルチスケールcnnと注意による効率的な音声感情認識
- Authors: Zixuan Peng, Yu Lu, Shengfeng Pan, Yunfeng Liu
- Abstract要約: 本稿では,音声からの音響情報と語彙情報の両方を利用する,シンプルで効率的なニューラルネットワークアーキテクチャを提案する。
マルチスケール・コンボリューション・レイヤ(MSCNN)を用いて音声とテキストのハイドデン表現を得る手法を提案する。
大規模な実験により,提案手法はIEMOCAPdataset上で従来の最先端の手法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 2.8017924048352576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotion recognition from speech is a challenging task. Re-cent advances in
deep learning have led bi-directional recur-rent neural network (Bi-RNN) and
attention mechanism as astandard method for speech emotion recognition,
extractingand attending multi-modal features - audio and text, and thenfusing
them for downstream emotion classification tasks. Inthis paper, we propose a
simple yet efficient neural networkarchitecture to exploit both acoustic and
lexical informationfrom speech. The proposed framework using multi-scale
con-volutional layers (MSCNN) to obtain both audio and text hid-den
representations. Then, a statistical pooling unit (SPU)is used to further
extract the features in each modality. Be-sides, an attention module can be
built on top of the MSCNN-SPU (audio) and MSCNN (text) to further improve the
perfor-mance. Extensive experiments show that the proposed modeloutperforms
previous state-of-the-art methods on IEMOCAPdataset with four emotion
categories (i.e., angry, happy, sadand neutral) in both weighted accuracy (WA)
and unweightedaccuracy (UA), with an improvement of 5.0% and 5.2% respectively
under the ASR setting.
- Abstract(参考訳): 音声からの感情認識は難しい課題である。
深層学習の最近の進歩は、双方向再帰的ニューラルネットワーク(Bi-RNN)とアテンションメカニズムを、音声やテキストといったマルチモーダルな特徴を抽出し、それらを下流の感情分類タスクに活用する標準的な方法として導いている。
本稿では,音声からの音響的情報と語彙的情報の両方を利用する,シンプルで効率的なニューラルネットワークアーキテクチャを提案する。
mscnn(multi-scale con-volutional layers)を用いて音声とテキストのhid-den表現を取得する。
次に、統計プーリングユニット(SPU)を用いて各モードの特徴をさらに抽出する。
また、アテンションモジュールはMSCNN-SPU (audio) とMSCNN (text) の上に構築でき、パーフォーマンスをさらに改善することができる。
実験の結果,IEMOCAPdatasetの既往の最先端手法では,重み付け精度 (WA) と非重み付け精度 (UA) の2つの感情カテゴリー(怒り,幸福,悲しみ,中立)で,それぞれ5.0%と5.2%の改善が得られた。
関連論文リスト
- SigWavNet: Learning Multiresolution Signal Wavelet Network for Speech Emotion Recognition [17.568724398229232]
音声感情認識(SER)は、音声信号の解読から感情状態において重要な役割を果たす。
本稿では,SERのための新しいエンド・ツー・エンド(E2E)深層学習フレームワークを提案する。
ウェーブレットの能力を利用して、時間領域と周波数領域の両方で効果的なローカライズを行う。
論文 参考訳(メタデータ) (2025-02-01T04:18:06Z) - EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z) - M2FNet: Multi-modal Fusion Network for Emotion Recognition in
Conversation [1.3864478040954673]
視覚,音声,テキストのモダリティから感情関連特徴を抽出するマルチモーダルフュージョンネットワーク(M2FNet)を提案する。
マルチヘッドアテンションに基づく融合機構を用いて、入力データの感情に富んだ潜在表現を結合する。
提案する特徴抽出器は,音声および視覚データから感情関連特徴を学習するために,適応的マージンに基づく新しい三重項損失関数を用いて訓練される。
論文 参考訳(メタデータ) (2022-06-05T14:18:58Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Speech Emotion Recognition with Co-Attention based Multi-level Acoustic
Information [21.527784717450885]
音声感情認識は、人間の主観的感情を音声情報のみから理解することを目的としている。
マルチレベル音響情報を用いたエンドツーエンドの音声感情認識システムを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:17:28Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Speech Command Recognition in Computationally Constrained Environments
with a Quadratic Self-organized Operational Layer [92.37382674655942]
軽量ネットワークの音声コマンド認識能力を向上するネットワーク層を提案する。
この手法はテイラー展開と二次形式の概念を借用し、入力層と隠蔽層の両方における特徴のより良い表現を構築する。
このリッチな表現は、Google音声コマンド(GSC)と合成音声コマンド(SSC)データセットに関する広範な実験で示されているように、認識精度の向上をもたらす。
論文 参考訳(メタデータ) (2020-11-23T14:40:18Z) - Attention Driven Fusion for Multi-Modal Emotion Recognition [39.295892047505816]
本稿では,感情分類のためのテキストと音響データを活用・融合するための深層学習に基づくアプローチを提案する。
我々は、帯域通過フィルタを用いたパラメータ化シンク関数に基づくSincNet層を用いて、生音声から音響特徴を抽出し、DCNNで処理する。
テキスト処理では,N-gramレベルの相関を推定するために,2つの分岐(DCNNとBi-direction RNNとDCNN)を並列に使用する。
論文 参考訳(メタデータ) (2020-09-23T08:07:58Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - An End-to-End Visual-Audio Attention Network for Emotion Recognition in
User-Generated Videos [64.91614454412257]
畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。
具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
論文 参考訳(メタデータ) (2020-02-12T15:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。