論文の概要: Multi-Document Grounded Multi-Turn Synthetic Dialog Generation
- arxiv url: http://arxiv.org/abs/2409.11500v1
- Date: Tue, 17 Sep 2024 19:02:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 20:09:46.002829
- Title: Multi-Document Grounded Multi-Turn Synthetic Dialog Generation
- Title(参考訳): 多文書接地型マルチTurn合成ダイアログ生成
- Authors: Young-Suk Lee, Chulaka Gunasekara, Danish Contractor, Ramón Fernandez Astudillo, Radu Florian,
- Abstract要約: 本稿では,3つの主要なアイデアを取り入れたマルチドキュメント・グラウンド・マルチターン合成ダイアログ生成手法を提案する。
我々は,Chain-of-Thoughtプロンプトによって生成される分類に基づくユーザクエリを用いて,ダイアログ全体のフローを制御する。
我々は,複数文書の接地ダイアログの生成を支援する。
- 参考スコア(独自算出の注目度): 22.7158929225259
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce a technique for multi-document grounded multi-turn synthetic dialog generation that incorporates three main ideas. First, we control the overall dialog flow using taxonomy-driven user queries that are generated with Chain-of-Thought (CoT) prompting. Second, we support the generation of multi-document grounded dialogs by mimicking real-world use of retrievers to update the grounding documents after every user-turn in the dialog. Third, we apply LLM-as-a-Judge to filter out queries with incorrect answers. Human evaluation of the synthetic dialog data suggests that the data is diverse, coherent, and includes mostly correct answers. Both human and automatic evaluations of answerable queries indicate that models fine-tuned on synthetic dialogs consistently out-perform those fine-tuned on existing human generated training data across four publicly available multi-turn document grounded benchmark test sets.
- Abstract(参考訳): 本稿では,3つの主要なアイデアを取り入れたマルチドキュメント・グラウンド・マルチターン合成ダイアログ生成手法を提案する。
まず,Chain-of-Thought(CoT)プロンプトによって生成される分類によるユーザクエリを用いて,ダイアログ全体のフローを制御する。
第2に,複数文書のグラウンドドダイアログの生成を支援するため,ユーザがダイアログを切り替えるたびに,実際のリトリバーを使ってグラウンドドドキュメントを更新する手法を提案する。
第3に,LLM-as-a-Judge を用いて,誤った回答でクエリをフィルタリングする。
合成ダイアログデータの人間による評価は、データが多様で一貫性があり、ほとんど正しい回答を含んでいることを示唆している。
回答可能なクエリの人的および自動評価は、合成ダイアログに微調整されたモデルが、利用可能な4つのマルチターン文書グラウンドドベンチマークテストセットにおいて、既存の人為的なトレーニングデータに微調整されたモデルよりも一貫して優れていることを示している。
関連論文リスト
- Learning From Free-Text Human Feedback -- Collect New Datasets Or Extend
Existing Ones? [57.16050211534735]
一般的な対話データセットにおける自由文フィードバックのタイプと頻度について検討する。
この結果から, エラータイプ, ユーザ応答タイプ, それらの関係性など, 調査したデータセットの構成に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2023-10-24T12:01:11Z) - q2d: Turning Questions into Dialogs to Teach Models How to Search [11.421839177607147]
質問から情報検索ダイアログを生成する自動データ生成パイプラインであるq2dを提案する。
検索クエリによる人書きダイアログに依存する従来の手法とは異なり,提案手法では,より優れた制御とスケールで,クエリベースの基底ダイアログを自動的に生成することができる。
論文 参考訳(メタデータ) (2023-04-27T16:39:15Z) - CGoDial: A Large-Scale Benchmark for Chinese Goal-oriented Dialog
Evaluation [75.60156479374416]
CGoDialは、Goal指向のダイアログ評価のための、新しい挑戦的で包括的な中国のベンチマークである。
96,763のダイアログセッションと574,949のダイアログがすべて含まれており、異なる知識ソースを持つ3つのデータセットをカバーする。
学術ベンチマークと音声対話のシナリオのギャップを埋めるために、実際の会話からデータを収集したり、クラウドソーシングを通じて既存のデータセットに音声機能を追加する。
論文 参考訳(メタデータ) (2022-11-21T16:21:41Z) - Controllable Dialogue Simulation with In-Context Learning [39.04491297557292]
textscDialogicは、大規模言語モデルに基づく対話シミュレーション手法である。
本手法は,人間の関与を最小あるいはゼロに抑えながら,少数の対話データを迅速に拡張することができる。
我々のシミュレートされた対話は、ほぼ人間に近い流速とアノテーションの精度を持つ。
論文 参考訳(メタデータ) (2022-10-09T06:32:58Z) - Manual-Guided Dialogue for Flexible Conversational Agents [84.46598430403886]
対話データを効率的に構築し、利用する方法や、さまざまなドメインにモデルを大規模にデプロイする方法は、タスク指向の対話システムを構築する上で重要な問題である。
エージェントは対話とマニュアルの両方からタスクを学習する。
提案手法は,詳細なドメインオントロジーに対する対話モデルの依存性を低減し,様々なドメインへの適応をより柔軟にする。
論文 参考訳(メタデータ) (2022-08-16T08:21:12Z) - Dialog Inpainting: Turning Documents into Dialogs [12.131506050808207]
私たちは2つのデータセットを作成し、1900万の多様な情報検索ダイアログを作成しました。
WikiDialogの回答の妥当性と会話性は、既存の手作業によるデータセットよりも優れているか、あるいは優れていると判断する。
論文 参考訳(メタデータ) (2022-05-18T16:58:50Z) - What is wrong with you?: Leveraging User Sentiment for Automatic Dialog
Evaluation [73.03318027164605]
本稿では,次のユーザの発話から自動的に抽出できる情報をプロキシとして利用して,前のシステム応答の質を測定することを提案する。
本モデルは,実際のユーザおよび有償ユーザから収集した音声と書面の両方のオープンドメインダイアログコーパスを一般化する。
論文 参考訳(メタデータ) (2022-03-25T22:09:52Z) - DG2: Data Augmentation Through Document Grounded Dialogue Generation [41.81030088619399]
生成対話モデルを用いて文書に基づく自動データ拡張手法を提案する。
元のデータセットを補うと、従来のデータ拡張手法よりも大幅に改善される。
論文 参考訳(メタデータ) (2021-12-15T18:50:14Z) - Detecting and Classifying Malevolent Dialogue Responses: Taxonomy, Data
and Methodology [68.8836704199096]
コーパスベースの会話インタフェースは、テンプレートベースのエージェントや検索ベースのエージェントよりも多様な自然なレスポンスを生成することができる。
コーパスベースの会話エージェントの生成能力が増大すると、マレヴォレントな反応を分類し、フィルタリングする必要性が生じる。
不適切な内容の認識と分類に関するこれまでの研究は、主にある種のマレヴォレンスに焦点を絞っている。
論文 参考訳(メタデータ) (2020-08-21T22:43:27Z) - Towards Conversational Recommendation over Multi-Type Dialogs [78.52354759386296]
ボットは、非推奨ダイアログからレコメンデーションダイアログへの会話を積極的に自然に導くことができる。
この課題の研究を容易にするために,人間と人による中国語対話データセットemphDuRecDial(約10k対話,約156k発話)を作成する。
各ダイアログでは、リコメンデータが積極的にマルチタイプのダイアログを導き、レコメンデーションターゲットにアプローチし、リッチなインタラクション動作で複数のレコメンデーションを行う。
論文 参考訳(メタデータ) (2020-05-08T11:01:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。