論文の概要: Duplex Conversation: Towards Human-like Interaction in Spoken Dialogue
System
- arxiv url: http://arxiv.org/abs/2205.15060v1
- Date: Mon, 30 May 2022 12:41:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 00:43:03.031587
- Title: Duplex Conversation: Towards Human-like Interaction in Spoken Dialogue
System
- Title(参考訳): 二重会話:音声対話システムにおけるヒューマンライクな対話を目指して
- Authors: Ting-En Lin, Yuchuan Wu, Fei Huang, Luo Si, Jian Sun, Yongbin Li
- Abstract要約: マルチモーダル音声対話システムにより、電話ベースのエージェントが、人間のような顧客と対話できる。
製品で学んだ教訓を共有するために、Conversation Duplex Alibabaのインテリジェントなカスタマサービスをデプロイしています。
オンラインA/B実験は,提案システムにおいて応答遅延を50%低減できることを示した。
- 参考スコア(独自算出の注目度): 120.70726465994781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present Duplex Conversation, a multi-turn, multimodal
spoken dialogue system that enables telephone-based agents to interact with
customers like a human. We use the concept of full-duplex in telecommunication
to demonstrate what a human-like interactive experience should be and how to
achieve smooth turn-taking through three subtasks: user state detection,
backchannel selection, and barge-in detection. Besides, we propose
semi-supervised learning with multimodal data augmentation to leverage
unlabeled data to increase model generalization. Experimental results on three
sub-tasks show that the proposed method achieves consistent improvements
compared with baselines. We deploy the Duplex Conversation to Alibaba
intelligent customer service and share lessons learned in production. Online
A/B experiments show that the proposed system can significantly reduce response
latency by 50%.
- Abstract(参考訳): 本稿では,電話エージェントが人間のような顧客と対話できるマルチターン・マルチモーダル音声対話システムであるDuplex Conversationを提案する。
我々は,電気通信におけるフルデュプレックスの概念を用いて,ユーザ状態検出,バックチャネル選択,バージイン検出の3つのサブタスクによるスムーズなターンテイクを実現する方法を示す。
さらに,ラベルなしデータの活用によるモデル一般化の促進を目的とした,マルチモーダルデータ拡張による半教師付き学習を提案する。
3つのサブタスクの実験結果から,提案手法はベースラインに比べて一貫した改善が得られた。
Duplex ConversationをAlibabaのインテリジェントなカスタマーサービスにデプロイし、本番で学んだ教訓を共有します。
オンラインA/B実験の結果,提案システムは応答遅延を50%削減できることがわかった。
関連論文リスト
- OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [24.68804661538364]
全音声対話システムは人間と人間の相互作用を著しく反映している。
低レイテンシと自然なインタラクションを実現することは、大きな課題です。
エンドツーエンド音声対話システムは、効率的で自然なエンドツーエンドシステムを開発する上で有望な方向である。
OmniFlatten氏によって生成された対話のオーディオサンプルは、このWebサイトにある。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - Enabling Real-Time Conversations with Minimal Training Costs [61.80370154101649]
本稿では,2つの言語モデルに対して,最小限の訓練を要し,2つの言語能力を持つ新しい重複復号法を提案する。
実験結果から,本手法はトレーニングコストの最小化とともに,ユーザとAIのインタラクションの自然性と人間的類似性を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-09-18T06:27:26Z) - Unveiling the Impact of Multi-Modal Interactions on User Engagement: A Comprehensive Evaluation in AI-driven Conversations [17.409790984399052]
本稿では,画像と音声をテキストと併用したマルチモーダルインタラクションがユーザエンゲージメントに与える影響について検討する。
本研究は,テキストのみの対話に比べて,マルチモーダルインタラクションによるユーザエンゲージメントが著しく向上していることを明らかにする。
その結果,マルチモーダルインタラクションは認知処理を最適化し,より豊かな情報理解を促進することが示唆された。
論文 参考訳(メタデータ) (2024-06-21T09:26:55Z) - FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - Mitigating Negative Style Transfer in Hybrid Dialogue System [42.65754135759929]
ユーザ固有の目標を達成し,ユーザとのオープン・トピック・チャットに参加するハイブリッド対話システムに注目が集まっている。
既存の研究は、マルチタスク融合技術を利用して両方のタスクを同時に学習するが、ユニークなテキストスタイルの違いによって引き起こされる負の伝達現象を無視する。
多様なデータセットに対する教師付き自己監督型正負のサンプル構成を考案する。
論文 参考訳(メタデータ) (2022-12-14T12:13:34Z) - Smoothing Dialogue States for Open Conversational Machine Reading [70.83783364292438]
本稿では,2つの対話状態を1つのデコーダとブリッジ決定と質問生成でスムーズにすることで,効果的なゲーティング戦略を提案する。
OR-ShARCデータセットを用いた実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-08-28T08:04:28Z) - WeaSuL: Weakly Supervised Dialogue Policy Learning: Reward Estimation
for Multi-turn Dialogue [17.663449579168297]
エージェントとユーザ(教師付き学習目標を持つエージェントに類似したモデル化)の対話をシミュレートし、相互に対話する。
エージェントは動的ブロッキングを使用して、ランク付けされた多様な応答と探索-探索を生成し、トップK応答の中から選択する。
2つのベンチマークによる実証研究は、我々のモデルが応答品質を著しく上回り、会話の成功につながることを示唆している。
論文 参考訳(メタデータ) (2021-08-01T08:00:45Z) - Transferable Dialogue Systems and User Simulators [17.106518400787156]
対話システムのトレーニングの難しさの1つは、トレーニングデータの欠如である。
本稿では,対話システムとユーザシミュレータ間の対話を通して対話データを作成する可能性について検討する。
我々は,2つのエージェント間のセルフプレイを通じて,新たな対話シナリオを組み込むことのできるモデリングフレームワークを開発する。
論文 参考訳(メタデータ) (2021-07-25T22:59:09Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - DCR-Net: A Deep Co-Interactive Relation Network for Joint Dialog Act
Recognition and Sentiment Classification [77.59549450705384]
ダイアログシステムでは、ダイアログアクト認識と感情分類は2つの相関タスクである。
既存のシステムのほとんどは、それらを別々のタスクとして扱うか、単に2つのタスクを一緒にモデル化するだけです。
本稿では,2つのタスク間の相互作用をモデル化するディープ・コ・インタラクティブ・リレーショナル・ネットワーク(DCR-Net)を提案する。
論文 参考訳(メタデータ) (2020-08-16T14:13:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。