論文の概要: SpeechEQ: Speech Emotion Recognition based on Multi-scale Unified
Datasets and Multitask Learning
- arxiv url: http://arxiv.org/abs/2206.13101v1
- Date: Mon, 27 Jun 2022 08:11:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 17:18:34.348311
- Title: SpeechEQ: Speech Emotion Recognition based on Multi-scale Unified
Datasets and Multitask Learning
- Title(参考訳): SpeechEQ:マルチスケール統一データセットとマルチタスク学習に基づく音声感情認識
- Authors: Zuheng Kang, Junqing Peng, Jianzong Wang, Jing Xiao
- Abstract要約: 我々はSERタスクをマルチスケールの統一メトリックに基づいて統合するフレームワークであるSpeechEQを提案する。
この指標は、感情状態カテゴリー(EIS)と感情強度尺度(EIS)の2つの感情認識タスクを含むマルチタスク学習(MTL)によって訓練することができる。
本研究では,マンダリンにおけるCASIAおよびESDデータセットの公開実験を行い,本手法がベースライン法を比較的大きなマージンで上回ることを示した。
- 参考スコア(独自算出の注目度): 24.57668015470307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech emotion recognition (SER) has many challenges, but one of the main
challenges is that each framework does not have a unified standard. In this
paper, we propose SpeechEQ, a framework for unifying SER tasks based on a
multi-scale unified metric. This metric can be trained by Multitask Learning
(MTL), which includes two emotion recognition tasks of Emotion States Category
(EIS) and Emotion Intensity Scale (EIS), and two auxiliary tasks of phoneme
recognition and gender recognition. For this framework, we build a Mandarin SER
dataset - SpeechEQ Dataset (SEQD). We conducted experiments on the public CASIA
and ESD datasets in Mandarin, which exhibit that our method outperforms
baseline methods by a relatively large margin, yielding 8.0\% and 6.5\%
improvement in accuracy respectively. Additional experiments on IEMOCAP with
four emotion categories (i.e., angry, happy, sad, and neutral) also show the
proposed method achieves a state-of-the-art of both weighted accuracy (WA) of
78.16% and unweighted accuracy (UA) of 77.47%.
- Abstract(参考訳): 音声感情認識(SER)には多くの課題があるが、主な課題の1つは、それぞれのフレームワークが統一された標準を持っていないことである。
本稿では,マルチスケール統一メトリックに基づくサータスク統一のためのフレームワークである speecheq を提案する。
このメトリクスは、感情状態カテゴリー(EIS)と感情強度尺度(EIS)の2つの感情認識タスクと、音素認識と性認識の2つの補助タスクを含むマルチタスク学習(MTL)によって訓練することができる。
このフレームワークでは,マンダリンSERデータセット - SpeechEQ Dataset (SEQD) を構築している。
マンダリンの公開casiaデータセットとesdデータセットについて実験を行い,本手法がベースライン法を比較的大きなマージンで上回り,それぞれ8.0\%,6.5\%の精度向上を示した。
また、IEMOCAPの4つの感情カテゴリー(怒り、幸せ、悲しみ、中立)による追加実験により、提案手法は、重み付き精度(WA)が78.16%、未重み付き精度(UA)が77.47%の状態を達成している。
関連論文リスト
- Deep Imbalanced Learning for Multimodal Emotion Recognition in
Conversations [15.705757672984662]
会話におけるマルチモーダル感情認識(MERC)は、マシンインテリジェンスにとって重要な開発方向である。
MERCのデータの多くは自然に感情カテゴリーの不均衡な分布を示しており、研究者は感情認識に対する不均衡なデータの負の影響を無視している。
生データにおける感情カテゴリーの不均衡分布に対処するクラス境界拡張表現学習(CBERL)モデルを提案する。
我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。
論文 参考訳(メタデータ) (2023-12-11T12:35:17Z) - Effect of Attention and Self-Supervised Speech Embeddings on
Non-Semantic Speech Tasks [3.570593982494095]
我々は、より現実的な認識課題として、音声感情理解を考察する。
我々は,ComParEの多言語話者の豊富なデータセットと,その感情の「感情共有」や知覚の多言語回帰ターゲットを利用する。
以上の結果から,HuBERT-Largeの自己アテンションに基づく軽量シーケンスモデルでは,報告されたベースラインよりも4.6%向上していることがわかった。
論文 参考訳(メタデータ) (2023-08-28T07:11:27Z) - MSAC: Multiple Speech Attribute Control Method for Reliable Speech
Emotion Recognition [8.049003600287206]
本研究は,音声感情認識手法の信頼性に関する研究の先駆者である。
CNNをベースとした新たなSERモデルでは、加算マージンのソフトマックス損失が最初にデジタイズされる。
音声属性を明示的に制御する新しいマルチ音声属性制御法MSACを提案する。
単体SERシナリオとクロスコーパスSERシナリオの両方の実験により、提案した統合SERワークフローは、すべての面で一貫してベースラインを上回ります。
論文 参考訳(メタデータ) (2023-08-08T03:43:24Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Feature Selection Enhancement and Feature Space Visualization for
Speech-Based Emotion Recognition [2.223733768286313]
音声の感情認識を改善する音声特徴強調戦略を提案する。
この戦略は、文学で使われている最先端の手法と比較される。
EMO-DBデータセットでは7つの感情のうち6つの感情のうち11.5%、RAVDESSデータセットでは8つの感情のうち7つの感情のうち13.8%が認識された。
論文 参考訳(メタデータ) (2022-08-19T11:29:03Z) - Multimodal Emotion Recognition with Modality-Pairwise Unsupervised
Contrastive Loss [80.79641247882012]
マルチモーダル感情認識(MER)のための教師なし特徴学習に着目した。
個別の感情を考慮し、モダリティテキスト、音声、視覚が使用される。
本手法は, 対のモダリティ間のコントラスト損失に基づくもので, MER文学における最初の試みである。
論文 参考訳(メタデータ) (2022-07-23T10:11:24Z) - A Novel Multi-Task Learning Method for Symbolic Music Emotion
Recognition [76.65908232134203]
Symbolic Music Emotion Recognition(SMER)は、MIDIやMusicXMLなどのシンボリックデータから音楽の感情を予測すること。
本稿では、感情認識タスクを他の感情関連補助タスクに組み込む、SMERのためのシンプルなマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-15T07:45:10Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Efficient Speech Emotion Recognition Using Multi-Scale CNN and Attention [2.8017924048352576]
本稿では,音声からの音響情報と語彙情報の両方を利用する,シンプルで効率的なニューラルネットワークアーキテクチャを提案する。
マルチスケール・コンボリューション・レイヤ(MSCNN)を用いて音声とテキストのハイドデン表現を得る手法を提案する。
大規模な実験により,提案手法はIEMOCAPdataset上で従来の最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-08T06:45:42Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。