論文の概要: Classification of Emotions and Evaluation of Customer Satisfaction from
Speech in Real World Acoustic Environments
- arxiv url: http://arxiv.org/abs/2108.11981v1
- Date: Thu, 26 Aug 2021 18:23:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 14:01:21.502883
- Title: Classification of Emotions and Evaluation of Customer Satisfaction from
Speech in Real World Acoustic Environments
- Title(参考訳): 実環境における音声からの感情の分類と顧客満足度の評価
- Authors: Luis Felipe Parra-Gallego, Juan Rafael Orozco-Arroyave
- Abstract要約: 本稿では、感情をしっかり認識し、実際の音響シナリオにおける発話から顧客満足度を評価するのに適した特徴を見つけることに焦点を当てる。
感情の分類は、標準的でよく知られたコーパスに基づいており、顧客満足度の評価は、コールセンターエージェントとの通話中に受信したサービスについての顧客からの実際の意見の記録に基づいている。
- 参考スコア(独自算出の注目度): 13.052923819242158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on finding suitable features to robustly recognize
emotions and evaluate customer satisfaction from speech in real acoustic
scenarios. The classification of emotions is based on standard and well-known
corpora and the evaluation of customer satisfaction is based on recordings of
real opinions given by customers about the received service during phone calls
with call-center agents. The feature sets considered in this study include two
speaker models, namely x-vectors and i-vectors, and also the well known feature
set introduced in the Interspeech 2010 Paralinguistics Challenge (I2010PC).
Additionally, we introduce the use of phonation, articulation and prosody
features extracted with the DisVoice framework as alternative feature sets to
robustly model emotions and customer satisfaction from speech. The results
indicate that the I2010PC feature set is the best approach to classify emotions
in the standard databases typically used in the literature. When considering
the recordings collected in the call-center, without any control over the
acoustic conditions, the best results are obtained with our articulation
features. The I2010PC feature set includes 1584 measures while the articulation
approach only includes 488 measures. We think that the proposed approach is
more suitable for real-world applications where the acoustic conditions are not
controlled and also it is potentially more convenient for industrial
applications.
- Abstract(参考訳): 本稿では、感情をしっかり認識し、実際の音響シナリオにおける顧客満足度を評価するのに適した特徴を見つけることに焦点を当てる。
感情の分類は、標準的でよく知られたコーパスに基づいており、顧客満足度の評価は、コールセンターエージェントとの通話中に受信したサービスについての顧客の実際の意見の記録に基づいている。
この研究で検討された特徴セットには、x-vectorsとi-vectorsという2つの話者モデル、およびInterspeech 2010 Paralinguistics Challenge (I2010PC)で導入されたよく知られた特徴セットが含まれる。
さらに,音声から感情や顧客満足度をロバストにモデル化するための代替機能セットとして,ディボイスフレームワークを用いて抽出した音声,調音,韻律機能について紹介する。
その結果、I2010PC機能セットは、典型的には文献で使用される標準データベースで感情を分類する最良の方法であることがわかった。
コールセンタで収集した録音を音響条件を制御せずに検討する場合,調音特性を用いて最適な結果を得る。
i2010pcの特徴セットは1584の尺度を含み、調音アプローチは488の尺度しか含まない。
提案手法は, 音響条件が制御されていない実世界の用途に適しており, 産業用途にも有用である可能性が示唆された。
関連論文リスト
- Evaluation of Deep Audio Representations for Hearables [1.5646349560044959]
このデータセットは、30秒ごとに1,158曲のオーディオトラックを含み、空間的にプロプライエタリなモノローグと、日々の音響シーンの高品質な録音を混合して作成されている。
本ベンチマークでは,音声シーンの一般的な文脈,音声ソース,技術的音響特性を評価する8つのタスクを網羅する。
この優位性は、様々なオーディオコレクションで訓練されたモデルの利点を強調し、聴取可能なステアリングに必要な環境特性の符号化を含む幅広い聴覚タスクに適用可能であることを確認する。
論文 参考訳(メタデータ) (2025-02-10T16:51:11Z) - Language Modelling for Speaker Diarization in Telephonic Interviews [13.851959980488529]
音響的特徴と言語的内容の組み合わせは、単語レベルのDERで84.29%改善している。
本研究は,一部の話者認識タスクにおいて,言語内容が効率的に利用できることを確認した。
論文 参考訳(メタデータ) (2025-01-28T18:18:04Z) - Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation [8.170174172545831]
本稿では,2024年における音響シーン・イベントの検出・分類の一環として,音シーン合成の課題に対処する。
本稿では,Fr'echet Audio Distanceと知覚的アセスメントを組み合わせた評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-23T06:35:41Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Towards Empathetic Conversational Recommender Systems [77.53167131692]
本稿では,共感型会話レコメンデータ(ECR)フレームワークを提案する。
ECRには、感情対応アイテムレコメンデーションと感情対応応答生成という、2つの主要なモジュールが含まれている。
ReDialデータセットの実験は、推奨精度を高め、ユーザの満足度を向上させる上で、我々のフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2024-08-30T15:43:07Z) - EMOVOME: A Dataset for Emotion Recognition in Spontaneous Real-Life Speech [2.1455880234227624]
音声感情認識(SER)のための自発的データセットは、実験室環境やステージ化されたシナリオからしばしば抽出される。
EMOVOME(Emotional Voice Messages)データセットを開発し、公開しました。
ベースラインモデルおよび変圧器モデルとして音響特性を用いた話者非依存SERモデルの評価を行った。
論文 参考訳(メタデータ) (2024-03-04T16:13:39Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - End-to-End Continuous Speech Emotion Recognition in Real-life Customer
Service Call Center Conversations [0.0]
本稿では,顧客サービスコールセンタ会話における連続SERのための大規模実生活データセット(CusEmo)を構築するためのアプローチを提案する。
我々は,実生活におけるコールセンター会話における感情の微妙さ,複雑さ,継続性を捉えるために,次元的感情アノテーションアプローチを採用した。
この研究は、データセットへのEnd-to-End (E2E) SERシステムの適用中に発生する課題にも対処している。
論文 参考訳(メタデータ) (2023-10-02T11:53:48Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Speaker Adaption with Intuitive Prosodic Features for Statistical
Parametric Speech Synthesis [50.5027550591763]
統計的パラメトリック音声合成のための直感的な韻律特徴を持つ話者適応法を提案する。
直感的な韻律的特徴は発話レベルまたは話者レベルで抽出され、それぞれ既存の話者エンコーディングベースおよび話者エンベディングベース適応フレームワークに統合される。
論文 参考訳(メタデータ) (2022-03-02T09:00:31Z) - Seamlessly Unifying Attributes and Items: Conversational Recommendation
for Cold-Start Users [111.28351584726092]
コールドスタートユーザに対しては,属性を問うと同時に,ユーザに対して対話的に商品を推薦する,対話型レコメンデーションを提案する。
会話型トンプソンサンプリング(ConTS)モデルでは,最大報酬の腕を選択することで,対話型レコメンデーションにおけるすべての質問を一意に解決する。
論文 参考訳(メタデータ) (2020-05-23T08:56:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。