論文の概要: Classification of Emotions and Evaluation of Customer Satisfaction from
Speech in Real World Acoustic Environments
- arxiv url: http://arxiv.org/abs/2108.11981v1
- Date: Thu, 26 Aug 2021 18:23:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 14:01:21.502883
- Title: Classification of Emotions and Evaluation of Customer Satisfaction from
Speech in Real World Acoustic Environments
- Title(参考訳): 実環境における音声からの感情の分類と顧客満足度の評価
- Authors: Luis Felipe Parra-Gallego, Juan Rafael Orozco-Arroyave
- Abstract要約: 本稿では、感情をしっかり認識し、実際の音響シナリオにおける発話から顧客満足度を評価するのに適した特徴を見つけることに焦点を当てる。
感情の分類は、標準的でよく知られたコーパスに基づいており、顧客満足度の評価は、コールセンターエージェントとの通話中に受信したサービスについての顧客からの実際の意見の記録に基づいている。
- 参考スコア(独自算出の注目度): 13.052923819242158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on finding suitable features to robustly recognize
emotions and evaluate customer satisfaction from speech in real acoustic
scenarios. The classification of emotions is based on standard and well-known
corpora and the evaluation of customer satisfaction is based on recordings of
real opinions given by customers about the received service during phone calls
with call-center agents. The feature sets considered in this study include two
speaker models, namely x-vectors and i-vectors, and also the well known feature
set introduced in the Interspeech 2010 Paralinguistics Challenge (I2010PC).
Additionally, we introduce the use of phonation, articulation and prosody
features extracted with the DisVoice framework as alternative feature sets to
robustly model emotions and customer satisfaction from speech. The results
indicate that the I2010PC feature set is the best approach to classify emotions
in the standard databases typically used in the literature. When considering
the recordings collected in the call-center, without any control over the
acoustic conditions, the best results are obtained with our articulation
features. The I2010PC feature set includes 1584 measures while the articulation
approach only includes 488 measures. We think that the proposed approach is
more suitable for real-world applications where the acoustic conditions are not
controlled and also it is potentially more convenient for industrial
applications.
- Abstract(参考訳): 本稿では、感情をしっかり認識し、実際の音響シナリオにおける顧客満足度を評価するのに適した特徴を見つけることに焦点を当てる。
感情の分類は、標準的でよく知られたコーパスに基づいており、顧客満足度の評価は、コールセンターエージェントとの通話中に受信したサービスについての顧客の実際の意見の記録に基づいている。
この研究で検討された特徴セットには、x-vectorsとi-vectorsという2つの話者モデル、およびInterspeech 2010 Paralinguistics Challenge (I2010PC)で導入されたよく知られた特徴セットが含まれる。
さらに,音声から感情や顧客満足度をロバストにモデル化するための代替機能セットとして,ディボイスフレームワークを用いて抽出した音声,調音,韻律機能について紹介する。
その結果、I2010PC機能セットは、典型的には文献で使用される標準データベースで感情を分類する最良の方法であることがわかった。
コールセンタで収集した録音を音響条件を制御せずに検討する場合,調音特性を用いて最適な結果を得る。
i2010pcの特徴セットは1584の尺度を含み、調音アプローチは488の尺度しか含まない。
提案手法は, 音響条件が制御されていない実世界の用途に適しており, 産業用途にも有用である可能性が示唆された。
関連論文リスト
- Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation [8.170174172545831]
本稿では,2024年における音響シーン・イベントの検出・分類の一環として,音シーン合成の課題に対処する。
本稿では,Fr'echet Audio Distanceと知覚的アセスメントを組み合わせた評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-23T06:35:41Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Towards Empathetic Conversational Recommender Systems [77.53167131692]
本稿では,共感型会話レコメンデータ(ECR)フレームワークを提案する。
ECRには、感情対応アイテムレコメンデーションと感情対応応答生成という、2つの主要なモジュールが含まれている。
ReDialデータセットの実験は、推奨精度を高め、ユーザの満足度を向上させる上で、我々のフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2024-08-30T15:43:07Z) - EMOVOME Database: Advancing Emotion Recognition in Speech Beyond Staged Scenarios [2.1455880234227624]
私たちはEMOVOME(Emotional Voice Messages)データベースをリリースしました。
話者非依存型音声感情認識(SER)モデルを,標準的な音響特徴セットとトランスフォーマーモデルを用いて評価した。
EMOVOMEの結果はアノテータラベルによって変化し、専門家と非専門家のアノテーションを組み合わせる際に、より良い結果と公平性を示す。
論文 参考訳(メタデータ) (2024-03-04T16:13:39Z) - Acoustic and linguistic representations for speech continuous emotion
recognition in call center conversations [2.0653090022137697]
本稿では,AlloSat corpus へのトランスファー学習の一形態として,事前学習した音声表現の利用について検討する。
実験により,事前学習した特徴を用いて得られた性能の大きな向上を確認した。
驚いたことに、言語内容が満足度予測の主要な要因であることは明らかでした。
論文 参考訳(メタデータ) (2023-10-06T10:22:51Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - End-to-End Continuous Speech Emotion Recognition in Real-life Customer
Service Call Center Conversations [0.0]
本稿では,顧客サービスコールセンタ会話における連続SERのための大規模実生活データセット(CusEmo)を構築するためのアプローチを提案する。
我々は,実生活におけるコールセンター会話における感情の微妙さ,複雑さ,継続性を捉えるために,次元的感情アノテーションアプローチを採用した。
この研究は、データセットへのEnd-to-End (E2E) SERシステムの適用中に発生する課題にも対処している。
論文 参考訳(メタデータ) (2023-10-02T11:53:48Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Speaker Adaption with Intuitive Prosodic Features for Statistical
Parametric Speech Synthesis [50.5027550591763]
統計的パラメトリック音声合成のための直感的な韻律特徴を持つ話者適応法を提案する。
直感的な韻律的特徴は発話レベルまたは話者レベルで抽出され、それぞれ既存の話者エンコーディングベースおよび話者エンベディングベース適応フレームワークに統合される。
論文 参考訳(メタデータ) (2022-03-02T09:00:31Z) - Embedded Emotions -- A Data Driven Approach to Learn Transferable
Feature Representations from Raw Speech Input for Emotion Recognition [1.4556324908347602]
本研究では,大規模テキストと音声コーパスから学習した知識を自動感情認識のタスクに適用する可能性について検討する。
その結果,学習した特徴表現を音声言語からの感情の分類に効果的に適用できることが示唆された。
論文 参考訳(メタデータ) (2020-09-30T09:18:31Z) - Seamlessly Unifying Attributes and Items: Conversational Recommendation
for Cold-Start Users [111.28351584726092]
コールドスタートユーザに対しては,属性を問うと同時に,ユーザに対して対話的に商品を推薦する,対話型レコメンデーションを提案する。
会話型トンプソンサンプリング(ConTS)モデルでは,最大報酬の腕を選択することで,対話型レコメンデーションにおけるすべての質問を一意に解決する。
論文 参考訳(メタデータ) (2020-05-23T08:56:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。