論文の概要: Why Synthetic Isn't Real Yet: A Diagnostic Framework for Contact Center Dialogue Generation
- arxiv url: http://arxiv.org/abs/2508.18210v1
- Date: Mon, 25 Aug 2025 17:10:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.879807
- Title: Why Synthetic Isn't Real Yet: A Diagnostic Framework for Contact Center Dialogue Generation
- Title(参考訳): コンタクトセンター対話生成のための診断フレームワーク「Synthetic」がまだ実現していない理由
- Authors: Rishikesh Devanathan, Varun Nathan, Ayush Kumar,
- Abstract要約: プライバシとデータ不足がモデルトレーニングと評価を制限するコンタクトセンタードメインでは,合成転写生成が重要となる。
単純なプロンプトから特徴認識型マルチステージアプローチに至るまで,言語に依存しない4つの生成戦略をベンチマークする。
結果、永続的な課題が明らかになる: 全ての特徴にまたがるメソッドは、拡散、感情、行動的リアリズムに顕著な欠陥を伴わない。
- 参考スコア(独自算出の注目度): 3.2960068101198963
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Synthetic transcript generation is critical in contact center domains, where privacy and data scarcity limit model training and evaluation. Unlike prior synthetic dialogue generation work on open-domain or medical dialogues, contact center conversations are goal-oriented, role-asymmetric, and behaviorally complex, featuring disfluencies, ASR noise, and compliance-driven agent actions. In deployments where transcripts are unavailable, standard pipelines still yield derived call attributes such as Intent Summaries, Topic Flow, and QA Evaluation Forms. We leverage these as supervision signals to guide generation. To assess the quality of such outputs, we introduce a diagnostic framework of 18 linguistically and behaviorally grounded metrics for comparing real and synthetic transcripts. We benchmark four language-agnostic generation strategies, from simple prompting to characteristic-aware multi-stage approaches, alongside reference-free baselines. Results reveal persistent challenges: no method excels across all traits, with notable deficits in disfluency, sentiment, and behavioral realism. Our diagnostic tool exposes these gaps, enabling fine-grained evaluation and stress testing of synthetic dialogue across languages.
- Abstract(参考訳): プライバシとデータ不足がモデルトレーニングと評価を制限するコンタクトセンタードメインでは,合成転写生成が重要となる。
オープンドメインや医療対話における以前の合成対話生成作業とは異なり、コンタクトセンターの会話はゴール指向、ロール非対称、行動的に複雑であり、分散性、ASRノイズ、コンプライアンス駆動のエージェントアクションが特徴である。
トランスクリプトが利用できないデプロイメントでは、標準パイプラインは、Intent Summaries、Topic Flow、QA Evaluation Formsなどの派生したコール属性を出力する。
我々はこれらを、世代を導くための監視信号として活用する。
このようなアウトプットの質を評価するために,実文と合成文を比較した18の言語的・行動学的基準の診断枠組みを導入する。
単純なプロンプトから特徴認識型マルチステージアプローチ、参照不要ベースラインの4つの言語に依存しない生成戦略をベンチマークする。
結果、永続的な課題が明らかになる: 全ての特徴にまたがるメソッドは、拡散、感情、行動的リアリズムに顕著な欠陥を伴わない。
我々の診断ツールはこれらのギャップを露呈し、言語間の合成対話のきめ細かい評価とストレステストを可能にした。
関連論文リスト
- How Real Are Synthetic Therapy Conversations? Evaluating Fidelity in Prolonged Exposure Dialogues [11.227593857814364]
医療における合成データの採用の増加は、プライバシの懸念、現実世界のデータへのアクセスの制限、アノテーションのコストの高騰によって引き起こされる。
本研究は、外傷後ストレス障害(PTSD)に対するPE(Prolonged Exposure)治療会話の使用について検討する。
我々は、ターンテイクパターンや治療の忠実度を含む言語、構造、プロトコル固有のメトリクスを用いて、実際の対話と合成対話を比較した。
論文 参考訳(メタデータ) (2025-04-30T16:56:56Z) - Dialogue is Better Than Monologue: Instructing Medical LLMs via Strategical Conversations [74.83732294523402]
実世界の診断シナリオをシミュレートし,USMLE標準に適合するノイズと難易度を統合する新しいベンチマークを導入する。
また、対話に基づく微調整についても検討し、静的データセットを会話形式に変換し、反復的推論プロセスをよりよく捉える。
実験の結果、対話調整されたモデルは従来の手法よりも優れており、マルチラウンド推論のシナリオでは9.64%、ノイズの多い環境では6.18%の精度で改善されている。
論文 参考訳(メタデータ) (2025-01-29T18:58:48Z) - Scalable Frame-based Construction of Sociocultural NormBases for Socially-Aware Dialogues [66.69453609603875]
社会文化的規範は、社会的相互作用における個人的行為の指針となる。
大規模言語モデル(LLM)を用いた社会文化的ノルム(SCN)ベース構築のためのスケーラブルなアプローチを提案する。
我々は、包括的で広くアクセス可能な中国社会文化ノルムベースを構築した。
論文 参考訳(メタデータ) (2024-10-04T00:08:46Z) - Synthetic Patient-Physician Dialogue Generation from Clinical Notes Using LLM [27.33193944412666]
医療対話システム(MDS)は、患者と医師のコミュニケーションを強化し、医療のアクセシビリティを改善し、コストを削減する。
しかし、これらのシステムの訓練に適したデータを取得することは大きな課題である。
我々のアプローチであるSynDialは、ゼロショットプロンプトとフィードバックループを備えた単一のLLMを反復的に使用し、高品質な合成対話を生成する。
論文 参考訳(メタデータ) (2024-08-12T16:49:22Z) - Hi Model, generating 'nice' instead of 'good' is not as bad as generating 'rice'! Towards Context and Semantic Infused Dialogue Generation Loss Function and Evaluation Metric [46.26506372710482]
本稿では,Semantic Infused Contextualized diaLogue (SemTextualLogue) ロス関数を提案する。
また、文脈と意味的関連性の両方を取り入れて、Dialuationと呼ばれる評価指標を定式化する。
論文 参考訳(メタデータ) (2023-09-11T20:16:38Z) - Dialogue Evaluation with Offline Reinforcement Learning [2.580163308334609]
タスク指向対話システムは,自然言語対話によるユーザ目標達成を目的としている。
これらは、開発フェーズのすべてのイテレーションで達成不可能な、人間のユーザによって理想的に評価されます。
静的コーパスに基づく対話評価のためのオフライン強化学習を提案する。
論文 参考訳(メタデータ) (2022-09-02T08:32:52Z) - DEAM: Dialogue Coherence Evaluation using AMR-based Semantic
Manipulations [46.942369532632604]
不整合データ生成のためのAMRに基づく意味操作に依存する対話評価指標を提案する。
実験の結果,DEAMは基準法と比較して,人間の判断と高い相関性が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-18T03:11:35Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。