論文の概要: End-to-End Speech Emotion Recognition: Challenges of Real-Life Emergency
Call Centers Data Recordings
- arxiv url: http://arxiv.org/abs/2110.14957v1
- Date: Thu, 28 Oct 2021 08:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 13:43:05.025944
- Title: End-to-End Speech Emotion Recognition: Challenges of Real-Life Emergency
Call Centers Data Recordings
- Title(参考訳): 終末音声感情認識 : 実生活救急コールセンターデータ記録の課題
- Authors: Th\'eo Deschamps-Berger (LISN, CNRS), Lori Lamel (LISN, CNRS),
Laurence Devillers (LISN, CNRS, SU)
- Abstract要約: 音声感情認識のためのエンドツーエンドのディープラーニングシステムは、従来の機械学習手法と同等あるいはそれ以上の結果が得られる。
コミュニティが利用できる広く使われているコーパスであるIEMOCAPで、まずそれをトレーニングし、テストしました。
次に、485人の話者から440のダイアログ(2h16m)からなる実生活コーパスCEMOと同じアーキテクチャを使用した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing a speaker's emotion from their speech can be a key element in
emergency call centers. End-to-end deep learning systems for speech emotion
recognition now achieve equivalent or even better results than conventional
machine learning approaches. In this paper, in order to validate the
performance of our neural network architecture for emotion recognition from
speech, we first trained and tested it on the widely used corpus accessible by
the community, IEMOCAP. We then used the same architecture as the real life
corpus, CEMO, composed of 440 dialogs (2h16m) from 485 speakers. The most
frequent emotions expressed by callers in these real life emergency dialogues
are fear, anger and positive emotions such as relief. In the IEMOCAP general
topic conversations, the most frequent emotions are sadness, anger and
happiness. Using the same end-to-end deep learning architecture, an Unweighted
Accuracy Recall (UA) of 63% is obtained on IEMOCAP and a UA of 45.6% on CEMO,
each with 4 classes. Using only 2 classes (Anger, Neutral), the results for
CEMO are 76.9% UA compared to 81.1% UA for IEMOCAP. We expect that these
encouraging results with CEMO can be improved by combining the audio channel
with the linguistic channel. Real-life emotions are clearly more complex than
acted ones, mainly due to the large diversity of emotional expressions of
speakers. Index Terms-emotion detection, end-to-end deep learning architecture,
call center, real-life database, complex emotions.
- Abstract(参考訳): 音声から話者の感情を認識することは、緊急コールセンターの重要な要素である。
音声感情認識のためのエンドツーエンドのディープラーニングシステムは、従来の機械学習手法と同等あるいはそれ以上の結果が得られる。
本稿では,言語からの感情認識のためのニューラルネットワークアーキテクチャの性能を検証するために,コミュニティが利用できる広く利用されているコーパスであるIEMOCAPを用いて,まず学習・試験を行った。
そして485人の話者による440のダイアログ (2h16m) からなる実生活コーパスcemoと同じアーキテクチャを用いた。
これらの実際の緊急対話において、発信者によって表現される最も頻繁な感情は、恐怖、怒り、リリーフのようなポジティブな感情である。
IEMOCAPの一般的な話題会話では、最も頻繁な感情は悲しみ、怒り、幸福である。
同じエンドツーエンドのディープラーニングアーキテクチャを使用して、IEMOCAPでは63%のUnweighted Accuracy Recall(UA)、CEMOでは45.6%のUAが、それぞれ4つのクラスを持つ。
2つのクラス(Anger, Neutral)を使用すると、CEMOの結果は76.9%、IEMOCAPは81.1%である。
音声チャネルと言語チャネルを組み合わせることで、CEMOによるこれらの奨励的な結果を改善することができると期待する。
実生活の感情は行動する感情よりも明らかに複雑であり、主に話者の感情表現が多様である。
インデックス項感情検出、エンドツーエンドのディープラーニングアーキテクチャ、コールセンタ、実生活データベース、複雑な感情。
関連論文リスト
- Speech Emotion Recognition Using CNN and Its Use Case in Digital Healthcare [0.0]
人間の感情と感情状態を音声から識別するプロセスは、音声感情認識(SER)として知られている。
私の研究は、畳み込みニューラルネットワーク(CNN)を使って、音声録音と感情を区別し、異なる感情の範囲に応じてラベル付けすることを目指しています。
私は、機械学習手法を用いて、供給された音声ファイルから感情を識別する機械学習モデルを開発した。
論文 参考訳(メタデータ) (2024-06-15T21:33:03Z) - Think out Loud: Emotion Deducing Explanation in Dialogues [57.90554323226896]
対話における感情推論(Emotion Deducing Explanation in Dialogues)を提案する。
EDENは感情と原因を明確な考え方で認識する。
大規模言語モデル(LLM)が感情や原因をよりよく認識するのに役立ちます。
論文 参考訳(メタデータ) (2024-06-07T08:58:29Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Speech and Text-Based Emotion Recognizer [0.9168634432094885]
我々は、音声感情認識のための公開データセットからバランスの取れたコーパスを構築する。
最良システムはマルチモーダル音声とテキストベースモデルであり,UA(Unweighed Accuracy)+WA(Weighed Accuracy)を119.66のベースラインアルゴリズムと比較して157.57の性能を提供する。
論文 参考訳(メタデータ) (2023-12-10T05:17:39Z) - Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on
Data-Driven Deep Learning [70.30713251031052]
本研究では,データ駆動型深層学習モデル,すなわちSenseNetを提案する。
実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。
論文 参考訳(メタデータ) (2022-06-15T01:25:32Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - The Role of Phonetic Units in Speech Emotion Recognition [22.64187265473794]
本稿では,Wav2vec 2.0を用いた感情依存音声認識による感情認識手法を提案する。
音素モデル、幅広い音韻クラス、音節のモデルは全て、発話モデルを大幅に上回る。
Wav2vec 2.0は音素よりも粗い音素や大きい音素を認識するように微調整できる。
論文 参考訳(メタデータ) (2021-08-02T19:19:47Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Emotion Recognition in Audio and Video Using Deep Neural Networks [9.694548197876868]
ディープラーニング技術の進歩により、音声認識が大幅に向上した。
音声から感情を認識することは重要な側面であり、ディープラーニング技術により、感情認識は精度とレイテンシが向上した。
本研究では、感情認識の精度を向上させるために、異なるニューラルネットワークを探索する。
論文 参考訳(メタデータ) (2020-06-15T04:50:18Z) - Detecting Emotion Primitives from Speech and their use in discerning
Categorical Emotions [16.886826928295203]
感情は人間同士のコミュニケーションにおいて重要な役割を担い、幸福やフラストレーション、誠実さといった感情を伝えることができる。
この研究は、感情プリミティブが、幸福、嫌悪、軽蔑、怒り、驚きといったカテゴリー的感情を中性的なスピーチから検出する方法について研究した。
以上の結果から, 覚醒と支配は, 感情のより優れた検出方法であった。
論文 参考訳(メタデータ) (2020-01-31T03:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。