論文の概要: Real-time Caller Intent Detection In Human-Human Customer Support Spoken
Conversations
- arxiv url: http://arxiv.org/abs/2208.06802v1
- Date: Sun, 14 Aug 2022 07:50:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 13:40:54.532876
- Title: Real-time Caller Intent Detection In Human-Human Customer Support Spoken
Conversations
- Title(参考訳): ヒューマン・ヒューマン・カスタマー支援音声対話におけるリアルタイム通話インテント検出
- Authors: Mrinal Rawat, Victor Barres
- Abstract要約: ヒューマン・ヒューマン・カスタマーサポート音声対話におけるエージェント支援には、発信者の意図に基づくトリガーが必要である(通話の理由)
目的は、エージェントがそれを検出できた時、システムが呼び出し者の意図を検出することである(Intent Boundary)。
音声アシスタントの最近の研究は、単語単位の段階的なリアルタイム予測を使用して、コマンドの終了前に意図を検出する。
- 参考スコア(独自算出の注目度): 10.312382727352823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agent assistance during human-human customer support spoken interactions
requires triggering workflows based on the caller's intent (reason for call).
Timeliness of prediction is essential for a good user experience. The goal is
for a system to detect the caller's intent at the time the agent would have
been able to detect it (Intent Boundary). Some approaches focus on predicting
the output offline, i.e. once the full spoken input (e.g. the whole
conversational turn) has been processed by the ASR system. This introduces an
undesirable latency in the prediction each time the intent could have been
detected earlier in the turn. Recent work on voice assistants has used
incremental real-time predictions at a word-by-word level to detect intent
before the end of a command. Human-directed and machine-directed speech however
have very different characteristics. In this work, we propose to apply a method
developed in the context of voice-assistant to the problem of online real time
caller's intent detection in human-human spoken interactions. We use a dual
architecture in which two LSTMs are jointly trained: one predicting the Intent
Boundary (IB) and then other predicting the intent class at the IB. We conduct
our experiments on our private dataset comprising transcripts of human-human
telephone conversations from the telecom customer support domain. We report
results analyzing both the accuracy of our system as well as the impact of
different architectures on the trade off between overall accuracy and
prediction latency.
- Abstract(参考訳): ヒューマン・ヒューマン・カスタマーサポートにおけるエージェント・アシスタントは、通話者の意図に基づいてワークフローをトリガーする必要がある(呼び出しの理由)。
優れたユーザエクスペリエンスには予測のタイムラインが不可欠です。
目標は、エージェントがそれ(意図的な境界)を検出できた時点で、システムが呼び出し者の意図を検出することである。
いくつかのアプローチは、asrシステムによって完全な音声入力(例えば、会話のターン全体)が処理されたときに、オフラインで出力を予測することに焦点を当てている。
これにより、インテントがターンの早い段階で検出されるたびに、予測に望ましくない遅延が発生する。
音声アシスタントの最近の研究は、単語単位の段階的なリアルタイム予測を使用して、コマンドの終了前に意図を検出する。
しかし、人間指向音声と機械指向音声は、非常に異なる特徴を持つ。
本研究では,音声アシスタントの文脈で開発された手法を,人間と人間の対話におけるオンラインリアルタイム発信者の意図検出問題に適用する。
我々は2つのLSTMを共同で訓練するデュアルアーキテクチャを用いており、1つはIntent Boundary(IB)を予測し、もう1つはIBの意図クラスを予測する。
テレコム顧客サポートドメインからの人間と人間の会話の書き起こしを含むプライベートデータセットで実験を行った。
システムの精度とアーキテクチャの違いが全体的な精度と予測遅延のトレードオフに与える影響を解析した結果を報告する。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Look Hear: Gaze Prediction for Speech-directed Human Attention [49.81718760025951]
本研究は、人物が画像を見て、参照表現を聴いているときの注意の漸進的な予測に焦点を当てた。
我々は,参照表現において各単語が引き起こす人間の定着を予測できるリファラルトランスフォーマーモデル(ART)を開発した。
定量的および定性的な分析では、ARTはスキャンパス予測の既存の手法よりも優れているだけでなく、いくつかの人間の注意パターンを捉えているように見える。
論文 参考訳(メタデータ) (2024-07-28T22:35:08Z) - Personalized Predictive ASR for Latency Reduction in Voice Assistants [29.237198363254752]
本稿では,部分的に観測された発話から全発話を予測し,予測された発話に基づいて応答をプリフェッチする予測自動音声認識を提案する。
内部音声アシスタントデータセットと公共SLURPデータセットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-05-23T08:05:43Z) - The Conversational Short-phrase Speaker Diarization (CSSD) Task:
Dataset, Evaluation Metric and Baselines [63.86406909879314]
本稿では,会話短文話者ダイアリゼーション(CSSD)タスクについて述べる。
トレーニングとテストのデータセット、評価基準、ベースラインで構成されている。
距離の面では,発話レベルでのSD精度を算出する新しい対話型DER (CDER) 評価指標を設計する。
論文 参考訳(メタデータ) (2022-08-17T03:26:23Z) - Improved Goal Oriented Dialogue via Utterance Generation and Look Ahead [5.062869359266078]
ディープテキスト・トゥ・テキスト・ニューラルモデルをトレーニングし、ラベルなし対話データから連続したユーザ発話を生成することにより、インテント予測を改善することができる。
本稿では,ユーザの発話生成を用いて意図予測を時間内に改善する新しいルックアヘッド手法を提案する。
論文 参考訳(メタデータ) (2021-10-24T11:12:48Z) - Detecting Speaker Personas from Conversational Texts [52.4557098875992]
本研究では,平易な会話テキストに基づく話者ペルソナの検出を目的とした,話者ペルソナ検出(SPD)という新しいタスクについて検討する。
我々は、Persona Match on Persona-Chat (PMPC)と呼ばれるSPDのためのデータセットを構築している。
本稿では,複数のベースラインモデルを評価し,この課題に対する発話対注目(U2P)マッチングネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-03T06:14:38Z) - Intelligent Conversational Android ERICA Applied to Attentive Listening
and Job Interview [41.789773897391605]
我々はインテリジェントな会話型android ericaを開発した。
ERICAには,注意深い聞き取り,就職面接,スピードデートなど,いくつかのソーシャルインタラクションタスクを設定した。
40人の高齢者が会話を分解することなく5~7分間の会話を行ったことが評価されている。
論文 参考訳(メタデータ) (2021-05-02T06:37:23Z) - Stop Bugging Me! Evading Modern-Day Wiretapping Using Adversarial
Perturbations [47.32228513808444]
ボイスオーバーIP(VoIP)会話のための大量監視システムは、プライバシーに大きなリスクをもたらす。
本稿では、VoIP会話のプライバシー保護のための逆学習に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-24T06:56:35Z) - Predict-then-Decide: A Predictive Approach for Wait or Answer Task in
Dialogue Systems [24.560203199376478]
本稿では,このウェイト・オア・アンサー問題に対処するための予測手法であるPredict-then-Decide (PTD)を提案する。
2つの実生活シナリオと3つの公開データセットで実験を行う。
論文 参考訳(メタデータ) (2020-05-27T01:48:54Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。