論文の概要: SpeechEQ: Speech Emotion Recognition based on Multi-scale Unified
Datasets and Multitask Learning
- arxiv url: http://arxiv.org/abs/2206.13101v1
- Date: Mon, 27 Jun 2022 08:11:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 17:18:34.348311
- Title: SpeechEQ: Speech Emotion Recognition based on Multi-scale Unified
Datasets and Multitask Learning
- Title(参考訳): SpeechEQ:マルチスケール統一データセットとマルチタスク学習に基づく音声感情認識
- Authors: Zuheng Kang, Junqing Peng, Jianzong Wang, Jing Xiao
- Abstract要約: 我々はSERタスクをマルチスケールの統一メトリックに基づいて統合するフレームワークであるSpeechEQを提案する。
この指標は、感情状態カテゴリー(EIS)と感情強度尺度(EIS)の2つの感情認識タスクを含むマルチタスク学習(MTL)によって訓練することができる。
本研究では,マンダリンにおけるCASIAおよびESDデータセットの公開実験を行い,本手法がベースライン法を比較的大きなマージンで上回ることを示した。
- 参考スコア(独自算出の注目度): 24.57668015470307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech emotion recognition (SER) has many challenges, but one of the main
challenges is that each framework does not have a unified standard. In this
paper, we propose SpeechEQ, a framework for unifying SER tasks based on a
multi-scale unified metric. This metric can be trained by Multitask Learning
(MTL), which includes two emotion recognition tasks of Emotion States Category
(EIS) and Emotion Intensity Scale (EIS), and two auxiliary tasks of phoneme
recognition and gender recognition. For this framework, we build a Mandarin SER
dataset - SpeechEQ Dataset (SEQD). We conducted experiments on the public CASIA
and ESD datasets in Mandarin, which exhibit that our method outperforms
baseline methods by a relatively large margin, yielding 8.0\% and 6.5\%
improvement in accuracy respectively. Additional experiments on IEMOCAP with
four emotion categories (i.e., angry, happy, sad, and neutral) also show the
proposed method achieves a state-of-the-art of both weighted accuracy (WA) of
78.16% and unweighted accuracy (UA) of 77.47%.
- Abstract(参考訳): 音声感情認識(SER)には多くの課題があるが、主な課題の1つは、それぞれのフレームワークが統一された標準を持っていないことである。
本稿では,マルチスケール統一メトリックに基づくサータスク統一のためのフレームワークである speecheq を提案する。
このメトリクスは、感情状態カテゴリー(EIS)と感情強度尺度(EIS)の2つの感情認識タスクと、音素認識と性認識の2つの補助タスクを含むマルチタスク学習(MTL)によって訓練することができる。
このフレームワークでは,マンダリンSERデータセット - SpeechEQ Dataset (SEQD) を構築している。
マンダリンの公開casiaデータセットとesdデータセットについて実験を行い,本手法がベースライン法を比較的大きなマージンで上回り,それぞれ8.0\%,6.5\%の精度向上を示した。
また、IEMOCAPの4つの感情カテゴリー(怒り、幸せ、悲しみ、中立)による追加実験により、提案手法は、重み付き精度(WA)が78.16%、未重み付き精度(UA)が77.47%の状態を達成している。
関連論文リスト
- A Cross-Lingual Meta-Learning Method Based on Domain Adaptation for Speech Emotion Recognition [1.8377902806196766]
最高のパフォーマンスの音声モデルは、彼らが目的とする言語で大量のデータに基づいて訓練される。
ほとんどの言語はスパースデータを持ち、トレーニングモデルを困難にしている。
本研究は、限られたデータ、特に音声感情認識のためのモデルの性能について考察する。
論文 参考訳(メタデータ) (2024-10-06T21:33:51Z) - Beyond Silent Letters: Amplifying LLMs in Emotion Recognition with Vocal Nuances [3.396456345114466]
本稿では,音声特徴を自然言語記述に変換するSpeechCueLLMを提案する。
我々は、IEMOCAPとMELDの2つのデータセット上でSpeechCueLLMを評価し、感情認識精度を大幅に改善した。
論文 参考訳(メタデータ) (2024-07-31T03:53:14Z) - Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文 参考訳(メタデータ) (2024-06-17T03:01:22Z) - Deep Imbalanced Learning for Multimodal Emotion Recognition in
Conversations [15.705757672984662]
会話におけるマルチモーダル感情認識(MERC)は、マシンインテリジェンスにとって重要な開発方向である。
MERCのデータの多くは自然に感情カテゴリーの不均衡な分布を示しており、研究者は感情認識に対する不均衡なデータの負の影響を無視している。
生データにおける感情カテゴリーの不均衡分布に対処するクラス境界拡張表現学習(CBERL)モデルを提案する。
我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。
論文 参考訳(メタデータ) (2023-12-11T12:35:17Z) - Feature Selection Enhancement and Feature Space Visualization for
Speech-Based Emotion Recognition [2.223733768286313]
音声の感情認識を改善する音声特徴強調戦略を提案する。
この戦略は、文学で使われている最先端の手法と比較される。
EMO-DBデータセットでは7つの感情のうち6つの感情のうち11.5%、RAVDESSデータセットでは8つの感情のうち7つの感情のうち13.8%が認識された。
論文 参考訳(メタデータ) (2022-08-19T11:29:03Z) - Multimodal Emotion Recognition with Modality-Pairwise Unsupervised
Contrastive Loss [80.79641247882012]
マルチモーダル感情認識(MER)のための教師なし特徴学習に着目した。
個別の感情を考慮し、モダリティテキスト、音声、視覚が使用される。
本手法は, 対のモダリティ間のコントラスト損失に基づくもので, MER文学における最初の試みである。
論文 参考訳(メタデータ) (2022-07-23T10:11:24Z) - A Novel Multi-Task Learning Method for Symbolic Music Emotion
Recognition [76.65908232134203]
Symbolic Music Emotion Recognition(SMER)は、MIDIやMusicXMLなどのシンボリックデータから音楽の感情を予測すること。
本稿では、感情認識タスクを他の感情関連補助タスクに組み込む、SMERのためのシンプルなマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-15T07:45:10Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Efficient Speech Emotion Recognition Using Multi-Scale CNN and Attention [2.8017924048352576]
本稿では,音声からの音響情報と語彙情報の両方を利用する,シンプルで効率的なニューラルネットワークアーキテクチャを提案する。
マルチスケール・コンボリューション・レイヤ(MSCNN)を用いて音声とテキストのハイドデン表現を得る手法を提案する。
大規模な実験により,提案手法はIEMOCAPdataset上で従来の最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-08T06:45:42Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。