Fugu-MT 論文翻訳(概要): Classification of Emotions and Evaluation of Customer Satisfaction from Speech in Real World Acoustic Environments

論文の概要: Classification of Emotions and Evaluation of Customer Satisfaction from Speech in Real World Acoustic Environments

arxiv url: http://arxiv.org/abs/2108.11981v1
Date: Thu, 26 Aug 2021 18:23:56 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-30 14:01:21.502883
Title: Classification of Emotions and Evaluation of Customer Satisfaction from Speech in Real World Acoustic Environments
Title（参考訳）: 実環境における音声からの感情の分類と顧客満足度の評価
Authors: Luis Felipe Parra-Gallego, Juan Rafael Orozco-Arroyave
Abstract要約: 本稿では、感情をしっかり認識し、実際の音響シナリオにおける発話から顧客満足度を評価するのに適した特徴を見つけることに焦点を当てる。感情の分類は、標準的でよく知られたコーパスに基づいており、顧客満足度の評価は、コールセンターエージェントとの通話中に受信したサービスについての顧客からの実際の意見の記録に基づいている。
参考スコア（独自算出の注目度）: 13.052923819242158
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper focuses on finding suitable features to robustly recognize emotions and evaluate customer satisfaction from speech in real acoustic scenarios. The classification of emotions is based on standard and well-known corpora and the evaluation of customer satisfaction is based on recordings of real opinions given by customers about the received service during phone calls with call-center agents. The feature sets considered in this study include two speaker models, namely x-vectors and i-vectors, and also the well known feature set introduced in the Interspeech 2010 Paralinguistics Challenge (I2010PC). Additionally, we introduce the use of phonation, articulation and prosody features extracted with the DisVoice framework as alternative feature sets to robustly model emotions and customer satisfaction from speech. The results indicate that the I2010PC feature set is the best approach to classify emotions in the standard databases typically used in the literature. When considering the recordings collected in the call-center, without any control over the acoustic conditions, the best results are obtained with our articulation features. The I2010PC feature set includes 1584 measures while the articulation approach only includes 488 measures. We think that the proposed approach is more suitable for real-world applications where the acoustic conditions are not controlled and also it is potentially more convenient for industrial applications.
Abstract（参考訳）: 本稿では、感情をしっかり認識し、実際の音響シナリオにおける顧客満足度を評価するのに適した特徴を見つけることに焦点を当てる。感情の分類は、標準的でよく知られたコーパスに基づいており、顧客満足度の評価は、コールセンターエージェントとの通話中に受信したサービスについての顧客の実際の意見の記録に基づいている。この研究で検討された特徴セットには、x-vectorsとi-vectorsという2つの話者モデル、およびInterspeech 2010 Paralinguistics Challenge (I2010PC)で導入されたよく知られた特徴セットが含まれる。さらに,音声から感情や顧客満足度をロバストにモデル化するための代替機能セットとして,ディボイスフレームワークを用いて抽出した音声,調音,韻律機能について紹介する。その結果、I2010PC機能セットは、典型的には文献で使用される標準データベースで感情を分類する最良の方法であることがわかった。コールセンタで収集した録音を音響条件を制御せずに検討する場合,調音特性を用いて最適な結果を得る。 i2010pcの特徴セットは1584の尺度を含み、調音アプローチは488の尺度しか含まない。提案手法は, 音響条件が制御されていない実世界の用途に適しており, 産業用途にも有用である可能性が示唆された。

関連論文リスト

AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文参考訳（メタデータ） (2025-07-17T00:39:18Z)
WildSpeech-Bench: Benchmarking Audio LLMs in Natural Speech Conversation [44.17470719671929]
本稿では,実用的な音声対話における音声大言語モデル(LLM)を徹底的に評価するための新しい手法を提案する。音声シナリオに関連する実世界のチャットデータを体系的にキュレートし、話者属性や音響条件の多様性を導入し、音声固有の現象でデータセットを増強する。様々な主流音声モデルの包括的テストと詳細な分析を行い、異なる音声シナリオにおけるモデル性能の顕著な差異を明らかにした。
論文参考訳（メタデータ） (2025-06-27T03:18:45Z)
Cocktail-Party Audio-Visual Speech Recognition [58.222892601847924]
本研究では,現在のAVSRシステムのベンチマークを行うために設計された,新しい音声-視覚カクテルパーティデータセットを提案する。音声とサイレント顔の両方からなる1526時間AVSRデータセットをコントリビュートし,カクテルパーティー環境における顕著な性能向上を実現した。我々の手法は、WERを最先端と比較して67%削減し、WERを明示的なセグメンテーション手法に頼ることなく、極音の119%から39.2%に削減する。
論文参考訳（メタデータ） (2025-06-02T19:07:51Z)
Enhancing Speech Emotion Recognition with Graph-Based Multimodal Fusion and Prosodic Features for the Speech Emotion Recognition in Naturalistic Conditions Challenge at Interspeech 2025 [64.59170359368699]
自然条件課題におけるInterSPEECH 2025音声感情認識のための頑健なシステムを提案する。提案手法は,最先端の音声モデルと韻律的・スペクトル的手法によって強化されたテキスト特徴を組み合わせる。
論文参考訳（メタデータ） (2025-06-02T13:46:02Z)
$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。 MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文参考訳（メタデータ） (2025-04-01T13:01:30Z)
Mind the Gap! Static and Interactive Evaluations of Large Audio Models [55.87220295533817]
大型オーディオモデル(LAM)は、音声ネイティブな体験をパワーアップするために設計されている。本研究は,484名の参加者から,LAMを評価し,7,500名のLAMインタラクションを収集する対話的アプローチを提案する。
論文参考訳（メタデータ） (2025-02-21T20:29:02Z)
Evaluation of Deep Audio Representations for Hearables [1.5646349560044959]
このデータセットは、30秒ごとに1,158曲のオーディオトラックを含み、空間的にプロプライエタリなモノローグと、日々の音響シーンの高品質な録音を混合して作成されている。本ベンチマークでは,音声シーンの一般的な文脈,音声ソース,技術的音響特性を評価する8つのタスクを網羅する。この優位性は、様々なオーディオコレクションで訓練されたモデルの利点を強調し、聴取可能なステアリングに必要な環境特性の符号化を含む幅広い聴覚タスクに適用可能であることを確認する。
論文参考訳（メタデータ） (2025-02-10T16:51:11Z)
Language Modelling for Speaker Diarization in Telephonic Interviews [13.851959980488529]
音響的特徴と言語的内容の組み合わせは、単語レベルのDERで84.29%改善している。本研究は,一部の話者認識タスクにおいて,言語内容が効率的に利用できることを確認した。
論文参考訳（メタデータ） (2025-01-28T18:18:04Z)
Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation [8.170174172545831]
本稿では,2024年における音響シーン・イベントの検出・分類の一環として,音シーン合成の課題に対処する。本稿では,Fr'echet Audio Distanceと知覚的アセスメントを組み合わせた評価手法を提案する。
論文参考訳（メタデータ） (2024-10-23T06:35:41Z)
CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文参考訳（メタデータ） (2024-09-19T17:59:52Z)
Towards Empathetic Conversational Recommender Systems [77.53167131692]
本稿では,共感型会話レコメンデータ(ECR)フレームワークを提案する。 ECRには、感情対応アイテムレコメンデーションと感情対応応答生成という、2つの主要なモジュールが含まれている。 ReDialデータセットの実験は、推奨精度を高め、ユーザの満足度を向上させる上で、我々のフレームワークの有効性を検証する。
論文参考訳（メタデータ） (2024-08-30T15:43:07Z)
EMOVOME Database: Advancing Emotion Recognition in Speech Beyond Staged Scenarios [2.1455880234227624]
私たちはEMOVOME(Emotional Voice Messages)データベースをリリースしました。話者非依存型音声感情認識(SER)モデルを,標準的な音響特徴セットとトランスフォーマーモデルを用いて評価した。 EMOVOMEの結果はアノテータラベルによって変化し、専門家と非専門家のアノテーションを組み合わせる際に、より良い結果と公平性を示す。
論文参考訳（メタデータ） (2024-03-04T16:13:39Z)
Acoustic and linguistic representations for speech continuous emotion recognition in call center conversations [2.0653090022137697]
本稿では,AlloSat corpus へのトランスファー学習の一形態として,事前学習した音声表現の利用について検討する。実験により,事前学習した特徴を用いて得られた性能の大きな向上を確認した。驚いたことに、言語内容が満足度予測の主要な要因であることは明らかでした。
論文参考訳（メタデータ） (2023-10-06T10:22:51Z)
Disentangling Voice and Content with Self-Supervision for Speaker Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文参考訳（メタデータ） (2023-10-02T12:02:07Z)
End-to-End Continuous Speech Emotion Recognition in Real-life Customer Service Call Center Conversations [0.0]
本稿では,顧客サービスコールセンタ会話における連続SERのための大規模実生活データセット(CusEmo)を構築するためのアプローチを提案する。我々は,実生活におけるコールセンター会話における感情の微妙さ,複雑さ,継続性を捉えるために,次元的感情アノテーションアプローチを採用した。この研究は、データセットへのEnd-to-End (E2E) SERシステムの適用中に発生する課題にも対処している。
論文参考訳（メタデータ） (2023-10-02T11:53:48Z)
AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文参考訳（メタデータ） (2023-08-23T18:20:59Z)
Speaker Adaption with Intuitive Prosodic Features for Statistical Parametric Speech Synthesis [50.5027550591763]
統計的パラメトリック音声合成のための直感的な韻律特徴を持つ話者適応法を提案する。直感的な韻律的特徴は発話レベルまたは話者レベルで抽出され、それぞれ既存の話者エンコーディングベースおよび話者エンベディングベース適応フレームワークに統合される。
論文参考訳（メタデータ） (2022-03-02T09:00:31Z)
Embedded Emotions -- A Data Driven Approach to Learn Transferable Feature Representations from Raw Speech Input for Emotion Recognition [1.4556324908347602]
本研究では,大規模テキストと音声コーパスから学習した知識を自動感情認識のタスクに適用する可能性について検討する。その結果,学習した特徴表現を音声言語からの感情の分類に効果的に適用できることが示唆された。
論文参考訳（メタデータ） (2020-09-30T09:18:31Z)
Seamlessly Unifying Attributes and Items: Conversational Recommendation for Cold-Start Users [111.28351584726092]
コールドスタートユーザに対しては,属性を問うと同時に,ユーザに対して対話的に商品を推薦する,対話型レコメンデーションを提案する。会話型トンプソンサンプリング(ConTS)モデルでは,最大報酬の腕を選択することで,対話型レコメンデーションにおけるすべての質問を一意に解決する。
論文参考訳（メタデータ） (2020-05-23T08:56:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。