論文の概要: DIALGEN: Collaborative Human-LM Generated Dialogues for Improved
Understanding of Human-Human Conversations
- arxiv url: http://arxiv.org/abs/2307.07047v1
- Date: Thu, 13 Jul 2023 20:02:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 15:41:47.198234
- Title: DIALGEN: Collaborative Human-LM Generated Dialogues for Improved
Understanding of Human-Human Conversations
- Title(参考訳): DIALGEN:人間と人間との会話の理解を深める共同対話
- Authors: Bo-Ru Lu, Nikita Haduong, Chia-Hsuan Lee, Zeqiu Wu, Hao Cheng, Paul
Koester, Jean Utke, Tao Yu, Noah A. Smith, Mari Ostendorf
- Abstract要約: DIALGENは、ループ内半自動対話生成フレームワークである。
DIALGENは言語モデル(ChatGPT)を使用して、スキーマやスタイルの仕様に従って、流動的な会話テキストを生成する。
対話状態追跡としてフレーム化されたエージェント・クライアント情報収集コールの構造的要約実験において、DIALGENデータによりモデル性能が大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 47.630410690388146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Applications that could benefit from automatic understanding of human-human
conversations often come with challenges associated with private information in
real-world data such as call center or clinical conversations. Working with
protected data also increases costs of annotation, which limits technology
development. To address these challenges, we propose DIALGEN, a
human-in-the-loop semi-automated dialogue generation framework. DIALGEN uses a
language model (ChatGPT) that can follow schema and style specifications to
produce fluent conversational text, generating a complex conversation through
iteratively generating subdialogues and using human feedback to correct
inconsistencies or redirect the flow. In experiments on structured
summarization of agent-client information gathering calls, framed as dialogue
state tracking, we show that DIALGEN data enables significant improvement in
model performance.
- Abstract(参考訳): 人間と人間の会話を自動的に理解することの恩恵を受けるアプリケーションは、コールセンターや臨床会話のような現実世界のデータにおけるプライベート情報に関連する課題を伴うことが多い。
保護されたデータを扱うことでアノテーションのコストが増大し、技術開発が制限される。
これらの課題に対処するため,我々は,ループ内半自動対話生成フレームワークである dialgen を提案する。
dialgenは、スキーマやスタイル仕様に従う言語モデル(chatgpt)を使用して、流麗な会話テキストを生成し、サブダイアログを反復的に生成し、ヒューマンフィードバックを使用して不一致を修正したり、フローをリダイレクトしたりすることで、複雑な会話を生成する。
対話状態追跡として構成されたエージェント-クライアント情報収集コールの構造化要約実験において,ダイアルゲンデータによってモデル性能が大幅に向上することを示す。
関連論文リスト
- REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。
EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。
その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T20:29:01Z) - OmniChat: Enhancing Spoken Dialogue Systems with Scalable Synthetic Data for Diverse Scenarios [45.78414948567598]
本稿では,多種多様なシナリオの対話モデルを強化するために合成データを活用することを提案する。
ShareChatXは、多様なシナリオにまたがる音声対話のための、最初の包括的な大規模データセットである。
また、合成データを用いた対話システムの訓練における重要な側面についても検討する。
論文 参考訳(メタデータ) (2025-01-02T17:58:23Z) - Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - LUCID: LLM-Generated Utterances for Complex and Interesting Dialogues [38.6183579217801]
バーチャルアシスタントは、対話機能に関して飛躍的に前進する可能性がある。
しかし、真にトランスフォーメーションされたタスク指向の対話機能を実現するための大きなボトルネックは、高品質なデータの不足である。
LUCIDを使用して、100の意図にまたがる4,277の会話のシードデータセットを生成し、その能力を実証しています。
論文 参考訳(メタデータ) (2024-03-01T11:33:53Z) - AUGUST: an Automatic Generation Understudy for Synthesizing
Conversational Recommendation Datasets [56.052803235932686]
本稿では,大規模かつ高品質なレコメンデーションダイアログを生成する新しい自動データセット合成手法を提案する。
i)従来のレコメンデーションデータセットからの豊富なパーソナライズされたユーザプロファイル、(ii)知識グラフからの豊富な外部知識、(iii)人間対人間会話レコメンデーションデータセットに含まれる会話能力。
論文 参考訳(メタデータ) (2023-06-16T05:27:14Z) - NatCS: Eliciting Natural Customer Support Dialogues [5.398732055835996]
既存のタスク指向の対話データセットは、実際の顧客サポートの会話を表すものではない。
音声顧客サービス会話のマルチドメインコレクションであるNatCSを紹介する。
論文 参考訳(メタデータ) (2023-05-04T17:25:24Z) - PLACES: Prompting Language Models for Social Conversation Synthesis [103.94325597273316]
我々は、プロンプトを用いてソーシャルな会話データセットを合成するために、専門家による会話の小さなセットをコンテキスト内例として使用します。
人工会話の徹底的な評価を,人間による会話と比較して行った。
論文 参考訳(メタデータ) (2023-02-07T05:48:16Z) - HybriDialogue: An Information-Seeking Dialogue Dataset Grounded on
Tabular and Textual Data [87.67278915655712]
我々は、ウィキペディアのテキストとテーブルの両方を基盤とした、クラウドソーシングされた自然な会話からなる新しい対話データセットHybriDialogueを提示する。
これらの会話は、複雑なマルチホップ質問をシンプルで現実的なマルチターン対話に分解することで生成される。
論文 参考訳(メタデータ) (2022-04-28T00:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。