論文の概要: q2d: Turning Questions into Dialogs to Teach Models How to Search
- arxiv url: http://arxiv.org/abs/2304.14318v2
- Date: Tue, 26 Dec 2023 16:00:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 22:55:31.380661
- Title: q2d: Turning Questions into Dialogs to Teach Models How to Search
- Title(参考訳): q2d:質問をダイアログに変えてモデルに検索の仕方を教える
- Authors: Yonatan Bitton, Shlomi Cohen-Ganor, Ido Hakimi, Yoad Lewenberg, Roee
Aharoni, Enav Weinreb
- Abstract要約: 質問から情報検索ダイアログを生成する自動データ生成パイプラインであるq2dを提案する。
検索クエリによる人書きダイアログに依存する従来の手法とは異なり,提案手法では,より優れた制御とスケールで,クエリベースの基底ダイアログを自動的に生成することができる。
- 参考スコア(独自算出の注目度): 11.421839177607147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the exciting capabilities of recent language models for dialog is
their ability to independently search for relevant information to ground a
given dialog response. However, obtaining training data to teach models how to
issue search queries is time and resource consuming. In this work, we propose
q2d: an automatic data generation pipeline that generates information-seeking
dialogs from questions. We prompt a large language model (PaLM) to create
conversational versions of question answering datasets, and use it to improve
query generation models that communicate with external search APIs to ground
dialog responses. Unlike previous approaches which relied on human written
dialogs with search queries, our method allows to automatically generate
query-based grounded dialogs with better control and scale. Our experiments
demonstrate that: (1) For query generation on the QReCC dataset, models trained
on our synthetically-generated data achieve 90%--97% of the performance of
models trained on the human-generated data; (2) We can successfully generate
data for training dialog models in new domains without any existing dialog data
as demonstrated on the multi-hop MuSiQue and Bamboogle QA datasets. (3) We
perform a thorough analysis of the generated dialogs showing that humans find
them of high quality and struggle to distinguish them from human-written
dialogs.
- Abstract(参考訳): 最近のダイアログにおける言語モデルのエキサイティングな機能の1つは、特定のダイアログ応答を基盤として、関連する情報を独立して検索する能力である。
しかし、検索クエリの発行方法をモデルに教えるトレーニングデータを得るには時間とリソースがかかります。
本稿では,質問から情報参照ダイアログを生成する自動データ生成パイプラインq2dを提案する。
我々は,大規模言語モデル(PaLM)に質問応答データセットの対話型バージョンを作成し,外部検索APIと通信して対話応答をグラウンド化するクエリ生成モデルを改善するよう促す。
検索クエリによる人書きダイアログに依存する従来の手法とは異なり,提案手法では,より優れた制御とスケールで,クエリベースの基底ダイアログを自動的に生成することができる。
実験の結果,(1)qreccデータセット上でのクエリ生成では,合成生成データに基づくモデルが,人間生成データを用いたモデルの90%から97%のパフォーマンスを達成し,(2)既存の対話データやbamboogle qaデータセットに示すような,新たなドメインにおけるダイアログモデルのトレーニングデータを生成することに成功しています。
3) 生成したダイアログを徹底的に分析することにより,人間が高い品質のダイアログを見いだし,人文対話と区別するのに苦労していることを示す。
関連論文リスト
- Multi-Document Grounded Multi-Turn Synthetic Dialog Generation [22.7158929225259]
本稿では,3つの主要なアイデアを取り入れたマルチドキュメント・グラウンド・マルチターン合成ダイアログ生成手法を提案する。
我々は,Chain-of-Thoughtプロンプトによって生成される分類に基づくユーザクエリを用いて,ダイアログ全体のフローを制御する。
我々は,複数文書の接地ダイアログの生成を支援する。
論文 参考訳(メタデータ) (2024-09-17T19:02:39Z) - Dialogizer: Context-aware Conversational-QA Dataset Generation from
Textual Sources [18.09705075305591]
本稿では,文脈関連性の高いConvQAデータセットを自動生成する機能を備えたDialogizerという新しいフレームワークを提案する。
複数のドメインからの文書を一次ソースとして利用して,ConvQAデータセットを4つ作成する。
論文 参考訳(メタデータ) (2023-11-09T06:03:11Z) - DialogStudio: Towards Richest and Most Diverse Unified Dataset
Collection for Conversational AI [92.29874802394167]
DialogStudioは対話データセットの最大かつ最も多様なコレクションである。
本コレクションは,オープンドメイン対話,タスク指向対話,自然言語理解,対話レコメンデーション,対話要約,知識基底対話などのデータを含む。
論文 参考訳(メタデータ) (2023-07-19T17:57:53Z) - CGoDial: A Large-Scale Benchmark for Chinese Goal-oriented Dialog
Evaluation [75.60156479374416]
CGoDialは、Goal指向のダイアログ評価のための、新しい挑戦的で包括的な中国のベンチマークである。
96,763のダイアログセッションと574,949のダイアログがすべて含まれており、異なる知識ソースを持つ3つのデータセットをカバーする。
学術ベンチマークと音声対話のシナリオのギャップを埋めるために、実際の会話からデータを収集したり、クラウドソーシングを通じて既存のデータセットに音声機能を追加する。
論文 参考訳(メタデータ) (2022-11-21T16:21:41Z) - Controllable Dialogue Simulation with In-Context Learning [39.04491297557292]
textscDialogicは、大規模言語モデルに基づく対話シミュレーション手法である。
本手法は,人間の関与を最小あるいはゼロに抑えながら,少数の対話データを迅速に拡張することができる。
我々のシミュレートされた対話は、ほぼ人間に近い流速とアノテーションの精度を持つ。
論文 参考訳(メタデータ) (2022-10-09T06:32:58Z) - Manual-Guided Dialogue for Flexible Conversational Agents [84.46598430403886]
対話データを効率的に構築し、利用する方法や、さまざまなドメインにモデルを大規模にデプロイする方法は、タスク指向の対話システムを構築する上で重要な問題である。
エージェントは対話とマニュアルの両方からタスクを学習する。
提案手法は,詳細なドメインオントロジーに対する対話モデルの依存性を低減し,様々なドメインへの適応をより柔軟にする。
論文 参考訳(メタデータ) (2022-08-16T08:21:12Z) - DialogVED: A Pre-trained Latent Variable Encoder-Decoder Model for
Dialog Response Generation [80.45816053153722]
DialogVEDは、拡張エンコーダデコーダ事前トレーニングフレームワークに連続潜伏変数を導入し、応答の関連性と多様性を高める。
我々は,PersonaChat,DailyDialog,DSTC7-AVSDベンチマークを用いて応答生成実験を行った。
論文 参考訳(メタデータ) (2022-04-27T16:18:15Z) - A Model-Agnostic Data Manipulation Method for Persona-based Dialogue
Generation [107.82729587882397]
現在のペルソナベースの対話データセットのスケールアップには費用がかかる。
このタスクの各データサンプルは、従来の対話データよりも複雑である。
本稿では,ペルソナをベースとした対話生成モデルにおいて,モデルに依存しないデータ操作手法を提案する。
論文 参考訳(メタデータ) (2022-04-21T03:49:54Z) - Reasoning in Dialog: Improving Response Generation by Context Reading
Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。
読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文 参考訳(メタデータ) (2020-12-14T10:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。