論文の概要: Cloning a Conversational Voice AI Agent from Call\,Recording Datasets for Telesales
- arxiv url: http://arxiv.org/abs/2509.04871v1
- Date: Fri, 05 Sep 2025 07:36:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.511126
- Title: Cloning a Conversational Voice AI Agent from Call\,Recording Datasets for Telesales
- Title(参考訳): Call\, Recording Datasets for Telesales による会話音声AIエージェントのクローニング
- Authors: Krittanon Kaewtawee, Wachiravit Modecrua, Krittin Pachtrachai, Touchapon Kraisingkorn,
- Abstract要約: 通話記録のコーパスから会話音声AIエージェントをクローンする手法を提案する。
我々のシステムは電話で顧客に耳を傾け、合成音声で応答し、トップパフォーマンスの人間エージェントから学んだ構造化されたプレイブックに従う。
本発明のクローン化剤は、導入、製品コミュニケーション、販売ドライブ、異物処理、閉店を含む22の基準で、人為的エージェントに対して評価される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in language and speech modelling have made it possible to build autonomous voice assistants that understand and generate human dialogue in real time. These systems are increasingly being deployed in domains such as customer service and healthcare care, where they can automate repetitive tasks, reduce operational costs, and provide constant support around the clock. In this paper, we present a general methodology for cloning a conversational voice AI agent from a corpus of call recordings. Although the case study described in this paper uses telesales data to illustrate the approach, the underlying process generalizes to any domain where call transcripts are available. Our system listens to customers over the telephone, responds with a synthetic voice, and follows a structured playbook learned from top performing human agents. We describe the domain selection, knowledge extraction, and prompt engineering used to construct the agent, integrating automatic speech recognition, a large language model based dialogue manager, and text to speech synthesis into a streaming inference pipeline. The cloned agent is evaluated against human agents on a rubric of 22 criteria covering introduction, product communication, sales drive, objection handling, and closing. Blind tests show that the AI agent approaches human performance in routine aspects of the call while underperforming in persuasion and objection handling. We analyze these shortcomings and refine the prompt accordingly. The paper concludes with design lessons and avenues for future research, including large scale simulation and automated evaluation.
- Abstract(参考訳): 近年の言語と音声モデリングの進歩により、人間の対話をリアルタイムで理解し、生成する自律音声アシスタントの構築が可能になった。
これらのシステムは、顧客サービスやヘルスケアといったドメインにデプロイされ、反復的なタスクを自動化し、運用コストを削減し、時計周りで継続的にサポートできるようになっている。
本稿では,通話記録のコーパスから会話音声AIエージェントをクローンする一般的な手法を提案する。
本稿では,テレセールデータを用いてそのアプローチを説明するが,その基礎となるプロセスは,呼び出し書き起こしが利用可能な任意の領域に一般化される。
我々のシステムは電話で顧客に耳を傾け、合成音声で応答し、トップパフォーマンスの人間エージェントから学んだ構造化されたプレイブックに従う。
本稿では,エージェント構築に使用するドメイン選択,知識抽出,プロンプトエンジニアリングについて述べる。自動音声認識,大規模言語モデルに基づく対話マネージャ,テキストから音声合成をストリーミング推論パイプラインに統合する。
本発明のクローン化剤は、導入、製品コミュニケーション、販売ドライブ、異物処理、閉店を含む22の基準で、人為的エージェントに対して評価される。
ブラインドテストは、AIエージェントが、説得と異議処理において過小評価しながら、呼び出しのルーチン的な側面で人間のパフォーマンスにアプローチしていることを示している。
これらの欠点を分析し、それに応じてプロンプトを洗練します。
本稿は,大規模シミュレーションや自動評価など,今後の研究に向けた設計の教訓と道程をまとめたものである。
関連論文リスト
- Benchmarking Automatic Speech Recognition coupled LLM Modules for Medical Diagnostics [0.0]
本報告は、医療電話記録に微調整されたモデルを分析する、私のセルフプロジェクトとして機能する。
音声書き起こしのための音声認識(ASR)と文脈認識のための大規模言語モデル(LLM)を解析する。
論文 参考訳(メタデータ) (2025-02-18T14:05:13Z) - Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - Conversational Rubert for Detecting Competitive Interruptions in ASR-Transcribed Dialogues [0.6138671548064356]
割り込みを自動的に分類するシステムは、コールセンター、特に顧客満足度モニタリングとエージェントモニタリングのタスクで利用することができる。
我々は、ASRで書き起こされた顧客サポート電話対話からなる社内データセットをロシア語で作成し、テキストベースの割り込み分類モデルを開発した。
論文 参考訳(メタデータ) (2024-07-20T17:25:53Z) - Does Collaborative Human-LM Dialogue Generation Help Information
Extraction from Human Dialogues? [55.28340832822234]
実際のアプリケーションにおける人間の対話の問題解決は、既存のWizard-of-Ozコレクションよりもはるかに複雑である。
本稿では,リアルな対話を合成できる人間間対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-13T20:02:50Z) - Controllable Mixed-Initiative Dialogue Generation through Prompting [50.03458333265885]
混合開始対話タスクには、情報の繰り返し交換と会話制御が含まれる。
エージェントは、ポリシープランナーが定める特定の対話意図や戦略に従う応答を生成することにより、コントロールを得る。
標準的なアプローチは、これらの意図に基づいて生成条件を実行するために、訓練済みの言語モデルを微調整している。
代わりに、条件生成の微調整に代えて、大きな言語モデルをドロップインで置き換えるように促します。
論文 参考訳(メタデータ) (2023-05-06T23:11:25Z) - CAMEL: Communicative Agents for "Mind" Exploration of Large Language
Model Society [58.04479313658851]
本稿では,コミュニケーションエージェント間の自律的協調を支援するスケーラブルな手法の構築の可能性について検討する。
本稿では,ロールプレイングという新しいコミュニケーションエージェントフレームワークを提案する。
コントリビューションには、新しいコミュニケーティブエージェントフレームワークの導入、マルチエージェントシステムの協調行動や能力を研究するためのスケーラブルなアプローチの提供などが含まれます。
論文 参考訳(メタデータ) (2023-03-31T01:09:00Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - A Speaker-aware Parallel Hierarchical Attentive Encoder-Decoder Model
for Multi-turn Dialogue Generation [13.820298189734686]
本稿では,マルチターン会話における話者の区別を強調するオープンドメイン対話生成モデルを提案する。
実験の結果,PHAEDは自動評価と人的評価の両面で最先端の成績を示した。
論文 参考訳(メタデータ) (2021-10-13T16:08:29Z) - Towards Data Distillation for End-to-end Spoken Conversational Question
Answering [65.124088336738]
音声対話型質問応答タスク(SCQA)を提案する。
SCQAは,音声発話とテキストコーパスから複雑な対話の流れをモデル化することを目的としている。
我々の主な目的は、音声とテキストの両方で会話的な質問に対処するQAシステムを構築することである。
論文 参考訳(メタデータ) (2020-10-18T05:53:39Z) - Contextual Dialogue Act Classification for Open-Domain Conversational
Agents [10.576497782941697]
会話におけるユーザ発話の一般的な意図を分類することは、会話エージェントのための自然言語理解(NLU)の重要なステップである。
本稿では,文脈対話行為分類のための簡易かつ効果的な深層学習手法であるCDAC(Contextual Dialogue Act)を提案する。
我々は、人-機械対話における対話行動を予測するために、トランスファーラーニングを用いて人間-機械対話で訓練されたモデルを適用する。
論文 参考訳(メタデータ) (2020-05-28T06:48:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。