論文の概要: "We care": Improving Code Mixed Speech Emotion Recognition in
Customer-Care Conversations
- arxiv url: http://arxiv.org/abs/2308.03150v1
- Date: Sun, 6 Aug 2023 15:56:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 16:20:04.005203
- Title: "We care": Improving Code Mixed Speech Emotion Recognition in
Customer-Care Conversations
- Title(参考訳): we care: カスタマーケア会話におけるコード混合音声感情認識の改善
- Authors: N V S Abhishek, Pushpak Bhattacharyya
- Abstract要約: 音声感情認識(SER)は、発話中の感情を識別するタスクである。
本稿では,単語レベルのVAD値を組み込むことで,負の感情に対して,SERのタスクを2%改善することを示す。
我々の研究は、このような状況下でより丁寧で共感的な会話エージェントを開発するために利用することができる。
- 参考スコア(独自算出の注目度): 36.9886023078247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech Emotion Recognition (SER) is the task of identifying the emotion
expressed in a spoken utterance. Emotion recognition is essential in building
robust conversational agents in domains such as law, healthcare, education, and
customer support. Most of the studies published on SER use datasets created by
employing professional actors in a noise-free environment. In natural settings
such as a customer care conversation, the audio is often noisy with speakers
regularly switching between different languages as they see fit. We have worked
in collaboration with a leading unicorn in the Conversational AI sector to
develop Natural Speech Emotion Dataset (NSED). NSED is a natural code-mixed
speech emotion dataset where each utterance in a conversation is annotated with
emotion, sentiment, valence, arousal, and dominance (VAD) values. In this
paper, we show that by incorporating word-level VAD value we improve on the
task of SER by 2%, for negative emotions, over the baseline value for NSED.
High accuracy for negative emotion recognition is essential because customers
expressing negative opinions/views need to be pacified with urgency, lest
complaints and dissatisfaction snowball and get out of hand. Escalation of
negative opinions speedily is crucial for business interests. Our study then
can be utilized to develop conversational agents which are more polite and
empathetic in such situations.
- Abstract(参考訳): 音声感情認識(英語: speech emotion recognition、ser)は、発話中の感情を識別するタスクである。
感情認識は、法律、医療、教育、カスタマーサポートといったドメインで堅牢な会話エージェントを構築する上で不可欠である。
SERに関する研究の多くは、ノイズフリー環境でプロのアクターを雇ったデータセットを使用している。
カスタマーケアの会話のような自然な環境では、スピーカーが適当に異なる言語を定期的に切り替えているため、音声はうるさい。
我々は、会話型AIセクターにおける主要なユニコーンと協力して、Natural Speech Emotion Dataset(NSED)を開発した。
nsedは、会話中の各発話に感情、感情、価値、覚醒、支配(vad)の値がアノテートされる自然なコード混合音声感情データセットである。
本稿では,単語レベルのvad値を組み込むことにより,nsedのベースライン値よりも,否定的感情に対するserのタスクを2%改善することを示す。
否定的な意見や見解を表わす顧客は、緊急性や不満、不満を抱き、雪玉を手放さなければならないため、否定的な感情認識の精度が不可欠である。
ネガティブな意見のエスカレーションはビジネス上の利益にとって重要である。
そこで本研究では,このような状況において,より礼儀正しく共感的な会話エージェントの開発に利用できる。
関連論文リスト
- Affective-NLI: Towards Accurate and Interpretable Personality Recognition in Conversation [30.820334868031537]
会話におけるパーソナリティ認識(PRC)は、テキスト対話コンテンツを通して話者の性格特性を識別することを目的としている。
本稿では,PRCの正確かつ解釈可能なAffective Natural Language Inference (Affective-NLI)を提案する。
論文 参考訳(メタデータ) (2024-04-03T09:14:24Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Effect of Attention and Self-Supervised Speech Embeddings on
Non-Semantic Speech Tasks [3.570593982494095]
我々は、より現実的な認識課題として、音声感情理解を考察する。
我々は,ComParEの多言語話者の豊富なデータセットと,その感情の「感情共有」や知覚の多言語回帰ターゲットを利用する。
以上の結果から,HuBERT-Largeの自己アテンションに基づく軽量シーケンスモデルでは,報告されたベースラインよりも4.6%向上していることがわかった。
論文 参考訳(メタデータ) (2023-08-28T07:11:27Z) - Emotion Flip Reasoning in Multiparty Conversations [27.884015521888458]
Instigator based Emotion Flip Reasoning (EFR) は、会話の中で話者の感情のフリップの背後にある侵入者を特定することを目的としている。
本報告では,感情心理学に則った基盤構造ERFインスティゲータラベルを含むデータセットであるMELD-Iについて述べる。
我々は,TransformerエンコーダとスタックGRUを利用して対話コンテキストをキャプチャする,TGIFと呼ばれる新しいニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-24T13:22:02Z) - EmoInHindi: A Multi-label Emotion and Intensity Annotated Dataset in
Hindi for Emotion Recognition in Dialogues [44.79509115642278]
我々はHindiにEmoInHindiという大きな会話データセットを作成し、会話におけるマルチラベルの感情と強度の認識を可能にした。
我々は、精神保健と犯罪被害者の法的カウンセリングのために、ウィザード・オブ・オズの方法でデータセットを作成します。
論文 参考訳(メタデータ) (2022-05-27T11:23:50Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Perspective-taking and Pragmatics for Generating Empathetic Responses
Focused on Emotion Causes [50.569762345799354]
i) 相手の感情が発話から引き起こされる原因となる単語を特定することと, (ii) 応答生成における特定の単語を反映することである。
社会的認知からインスピレーションを得て、生成的推定を用いて、感情が単語レベルのラベルのない発話から単語を推論する。
論文 参考訳(メタデータ) (2021-09-18T04:22:49Z) - AdCOFE: Advanced Contextual Feature Extraction in Conversations for
emotion classification [0.29360071145551075]
提案したAdCOFE(Advanced Contextual Feature extract)モデルはこれらの問題に対処する。
会話データセットにおける感情認識の実験は、AdCOFEが会話中の感情のキャプチャに有益であることを示しています。
論文 参考訳(メタデータ) (2021-04-09T17:58:19Z) - Disambiguating Affective Stimulus Associations for Robot Perception and
Dialogue [67.89143112645556]
知覚された聴覚刺激と感情表現の関連性を学ぶことができるNICOロボットを提供します。
NICOは、感情駆動対話システムの助けを借りて、個人と特定の刺激の両方でこれを行うことができる。
ロボットは、実際のHRIシナリオにおいて、被験者の聴覚刺激の楽しさを判断するために、この情報を利用することができる。
論文 参考訳(メタデータ) (2021-03-05T20:55:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。