論文の概要: Prediction of User Request and Complaint in Spoken Customer-Agent
Conversations
- arxiv url: http://arxiv.org/abs/2208.10249v1
- Date: Wed, 27 Jul 2022 21:29:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-28 22:26:55.109569
- Title: Prediction of User Request and Complaint in Spoken Customer-Agent
Conversations
- Title(参考訳): 音声ユーザエージェント会話におけるユーザ要求と苦情の予測
- Authors: Nikola Lackovic, Claude Montaci\'e, Gauthier Lalande and Marie-Jos\'e
Caraty
- Abstract要約: このコーパスには音声会話の書き起こしが含まれており、Train と Devel の2つのセットに分けられた。
6つの言語的特徴セット、6つの音声特徴セット、2つの音声対話特徴セットについて検討した。
結果から,言語的特徴が常に最良の結果をもたらすことが明らかとなった(要求タスクは91.2%,苦情タスクは70.3%)。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the corpus called HealthCall. This was recorded in real-life
conditions in the call center of Malakoff Humanis. It includes two separate
audio channels, the first one for the customer and the second one for the
agent. Each conversation was anonymized respecting the General Data Protection
Regulation. This corpus includes a transcription of the spoken conversations
and was divided into two sets: Train and Devel sets. Two important customer
relationship management tasks were assessed on the HealthCall corpus: Automatic
prediction of type of user requests and complaints detection. For this purpose,
we have investigated 14 feature sets: 6 linguistic feature sets, 6 audio
feature sets and 2 vocal interaction feature sets. We have used Bidirectional
Encoder Representation from Transformers models for the linguistic features,
openSMILE and Wav2Vec 2.0 for the audio features. The vocal interaction feature
sets were designed and developed from Turn Takings. The results show that the
linguistic features always give the best results (91.2% for the Request task
and 70.3% for the Complaint task). The Wav2Vec 2.0 features seem more suitable
for these two tasks than the ComPaRe16 features. Vocal interaction features
outperformed ComPaRe16 features on Complaint task with a 57% rate achieved with
only six features.
- Abstract(参考訳): 我々はhealthcallというコーパスを提示する。
これはマラコフ・ヒューマニスのコールセンターで実生活で記録された。
それは2つの別々のオーディオチャンネルを含み、1つは顧客、2つ目はエージェントである。
各会話は、General Data Protection Regulationに関して匿名化された。
このコーパスは、会話の書き起こしを含み、トレインセットとデヴェルセットの2つのセットに分割された。
HealthCall corpusでは2つの重要な顧客関係管理タスクが評価された。
そこで本研究では,言語機能セット6つ,音声機能セット6つ,音声インタラクション機能セット2つという,14種類の特徴セットについて検討した。
言語特徴にはトランスフォーマーモデルからの双方向エンコーダ表現,音声特徴にはopensmileとwav2vec 2.0を用いた。
音声対話機能セットはターンテイクから設計・開発された。
その結果、言語的特徴は常に最良の結果をもたらす(要求タスクは91.2%、苦情タスクは70.3%)。
Wav2Vec 2.0の機能は、ComPaRe16の機能よりもこの2つのタスクに適しているように見える。
音声対話機能は、ComPaRe16よりもパフォーマンスが良く、ComPaRe16は6つの機能で57%の割合で達成されている。
関連論文リスト
- Target conversation extraction: Source separation using turn-taking dynamics [23.189364779538757]
本稿では,ターゲット会話抽出の新たな課題について紹介する。その目的は,参加者の1人の話者埋め込みに基づいて,対象会話の音声を抽出することである。
ニューラルネットワークを用いて、英語とマンダリンの会話データセットに対する我々のアプローチの有効性を示す。
干渉話者の存在下では,2対4対4対4対4対4対4対4対7.92対2対1対1対1対1対1対1対8.19対1対1対1対4対4対4対4対2対2対2対2対2対1対1対1対1対1対1対1対1対1対1対1対1対1対1対1対1対1対1対2対2対2対2対4対1対2対2対2対2対2対2対2対2対2対1対1対1対1対1対1対1対1
論文 参考訳(メタデータ) (2024-07-15T22:55:27Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Question-Interlocutor Scope Realized Graph Modeling over Key Utterances
for Dialogue Reading Comprehension [61.55950233402972]
本稿では,対話読解のためのキーワード抽出手法を提案する。
複数の連続した発話によって形成された単位に対して予測を行い、より多くの回答を含む発話を実現する。
発話のテキスト上に構築されたグラフとして,質問-対話者スコープ実現グラフ(QuISG)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-26T04:00:42Z) - Real-time Caller Intent Detection In Human-Human Customer Support Spoken
Conversations [10.312382727352823]
ヒューマン・ヒューマン・カスタマーサポート音声対話におけるエージェント支援には、発信者の意図に基づくトリガーが必要である(通話の理由)
目的は、エージェントがそれを検出できた時、システムが呼び出し者の意図を検出することである(Intent Boundary)。
音声アシスタントの最近の研究は、単語単位の段階的なリアルタイム予測を使用して、コマンドの終了前に意図を検出する。
論文 参考訳(メタデータ) (2022-08-14T07:50:23Z) - Multi-task Voice-Activated Framework using Self-supervised Learning [0.9864260997723973]
wav2vec 2.0のような自己教師型学習手法は、未ラベルおよび未転写音声データから音声表現を学習する上で有望な結果を示している。
本稿では,様々な音声アクティベートタスクに対して,事前学習したwav2vec 2.0モデルを適用するための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-03T19:28:57Z) - WASE: Learning When to Attend for Speaker Extraction in Cocktail Party
Environments [21.4128321045702]
話者抽出問題では,対象話者からの付加情報が話者の追跡・抽出に寄与することが判明した。
発声のキューにインスパイアされ, 発声のキューを明示的にモデル化し, 話者抽出作業の有効性を検証した。
タスクの観点から、我々のオンセット/オフセットモデルでは、話者抽出と話者依存音声活動検出の相補的な組み合わせである複合タスクを完成させる。
論文 参考訳(メタデータ) (2021-06-13T14:56:05Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - AdaSpeech: Adaptive Text to Speech for Custom Voice [104.69219752194863]
新しい音声の高品質かつ効率的なカスタマイズのための適応型TSシステムであるAdaSpeechを提案する。
実験結果から,AdaSpeechはベースライン法よりも適応性が高く,話者毎のパラメータは5K程度であった。
論文 参考訳(メタデータ) (2021-03-01T13:28:59Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z) - HarperValleyBank: A Domain-Specific Spoken Dialog Corpus [7.331287001215395]
HarperValleyBankは、パブリックドメインのダイアログコーパスである。
このデータは単純な消費者銀行の対話をシミュレートし、1,446人の人間と会話から約23時間の音声を含む。
論文 参考訳(メタデータ) (2020-10-26T22:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。