論文の概要: Dialog Inpainting: Turning Documents into Dialogs
- arxiv url: http://arxiv.org/abs/2205.09073v1
- Date: Wed, 18 May 2022 16:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 12:13:14.401521
- Title: Dialog Inpainting: Turning Documents into Dialogs
- Title(参考訳): Dialog Inpainting: ドキュメントをダイアログに変換する
- Authors: Zhuyun Dai, Arun Tejasvi Chaganty, Vincent Zhao, Aida Amini, Qazi
Mamunur Rashid, Mike Green, Kelvin Guu
- Abstract要約: 私たちは2つのデータセットを作成し、1900万の多様な情報検索ダイアログを作成しました。
WikiDialogの回答の妥当性と会話性は、既存の手作業によるデータセットよりも優れているか、あるいは優れていると判断する。
- 参考スコア(独自算出の注目度): 12.131506050808207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many important questions (e.g. "How to eat healthier?") require conversation
to establish context and explore in depth. However, conversational question
answering (ConvQA) systems have long been stymied by scarce training data that
is expensive to collect. To address this problem, we propose a new technique
for synthetically generating diverse and high-quality dialog data: dialog
inpainting. Our approach takes the text of any document and transforms it into
a two-person dialog between the writer and an imagined reader: we treat
sentences from the article as utterances spoken by the writer, and then use a
dialog inpainter to predict what the imagined reader asked or said in between
each of the writer's utterances. By applying this approach to passages from
Wikipedia and the web, we produce WikiDialog and WebDialog, two datasets
totalling 19 million diverse information-seeking dialogs -- 1,000x larger than
the largest existing ConvQA dataset. Furthermore, human raters judge the answer
adequacy and conversationality of WikiDialog to be as good or better than
existing manually-collected datasets. Using our inpainted data to pre-train
ConvQA retrieval systems, we significantly advance state-of-the-art across
three benchmarks (QReCC, OR-QuAC, TREC CAsT) yielding up to 40% relative gains
on standard evaluation metrics.
- Abstract(参考訳): 多くの重要な質問("how to eat healthier?"など)は、コンテキストを確立し、深く掘り下げるために会話を必要とする。
しかしながら、会話型質問応答(convqa)システムは、収集に費用がかかるトレーニングデータが少ないため、長い間抑制されてきた。
この問題に対処するために,多種多様な高品質なダイアログデータを合成的に生成する新しい手法を提案する。
私たちは、記事の文章を著者が話した発話として扱い、次に、想像された読者が各著者の発話の間に何を尋ねたり、話したりするかを予測するために、ダイアログを塗り替えます。
このアプローチをWikipediaとWebからのパスに適用することにより、WikiDialogとWebDialogという2つのデータセットを生成します。
さらに、WikiDialogの回答の妥当性と会話性は、既存の手作業によるデータセットよりも優れているか優れていると判断する。
塗装したデータを事前トレーニングしたConvQA検索システムに使用することにより、3つのベンチマーク(QReCC, OR-QuAC, TREC CAsT)において、標準評価基準に対して最大40%の相対的な利得が得られた。
関連論文リスト
- Synthesizing Conversations from Unlabeled Documents using Automatic Response Segmentation [13.322409682814827]
我々は,会話型質問応答システムにおける不適切でコストのかかるデータトレーニングの課題に対処する。
本稿では,ロバストなダイアログ合成手法を提案する。
文境界におけるセグメンテーションを使わずに,ダイアログタスクのためのデータのセグメンテーションを学習する。
論文 参考訳(メタデータ) (2024-06-06T02:52:45Z) - Dialogizer: Context-aware Conversational-QA Dataset Generation from
Textual Sources [18.09705075305591]
本稿では,文脈関連性の高いConvQAデータセットを自動生成する機能を備えたDialogizerという新しいフレームワークを提案する。
複数のドメインからの文書を一次ソースとして利用して,ConvQAデータセットを4つ作成する。
論文 参考訳(メタデータ) (2023-11-09T06:03:11Z) - CGoDial: A Large-Scale Benchmark for Chinese Goal-oriented Dialog
Evaluation [75.60156479374416]
CGoDialは、Goal指向のダイアログ評価のための、新しい挑戦的で包括的な中国のベンチマークである。
96,763のダイアログセッションと574,949のダイアログがすべて含まれており、異なる知識ソースを持つ3つのデータセットをカバーする。
学術ベンチマークと音声対話のシナリオのギャップを埋めるために、実際の会話からデータを収集したり、クラウドソーシングを通じて既存のデータセットに音声機能を追加する。
論文 参考訳(メタデータ) (2022-11-21T16:21:41Z) - Controllable Dialogue Simulation with In-Context Learning [39.04491297557292]
textscDialogicは、大規模言語モデルに基づく対話シミュレーション手法である。
本手法は,人間の関与を最小あるいはゼロに抑えながら,少数の対話データを迅速に拡張することができる。
我々のシミュレートされた対話は、ほぼ人間に近い流速とアノテーションの精度を持つ。
論文 参考訳(メタデータ) (2022-10-09T06:32:58Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - HybriDialogue: An Information-Seeking Dialogue Dataset Grounded on
Tabular and Textual Data [87.67278915655712]
我々は、ウィキペディアのテキストとテーブルの両方を基盤とした、クラウドソーシングされた自然な会話からなる新しい対話データセットHybriDialogueを提示する。
これらの会話は、複雑なマルチホップ質問をシンプルで現実的なマルチターン対話に分解することで生成される。
論文 参考訳(メタデータ) (2022-04-28T00:52:16Z) - What Did You Say? Task-Oriented Dialog Datasets Are Not Conversational!? [4.022057598291766]
我々は,MultiWOZ,SGD,SMCalFlowの対話効果と文脈効果の分類を概説する。
我々は、MultiWOZのターンの4%未満、SGDのターンの10%が会話型であるのに対して、SMCalFlowは現在のリリースでは会話型ではないことを発見した。
論文 参考訳(メタデータ) (2022-03-07T14:26:23Z) - DG2: Data Augmentation Through Document Grounded Dialogue Generation [41.81030088619399]
生成対話モデルを用いて文書に基づく自動データ拡張手法を提案する。
元のデータセットを補うと、従来のデータ拡張手法よりも大幅に改善される。
論文 参考訳(メタデータ) (2021-12-15T18:50:14Z) - Converse, Focus and Guess -- Towards Multi-Document Driven Dialogue [53.380996227212165]
本稿では,対話を指導することで,ユーザが興味を持っている対象文書をエージェントが推測できる,MD3(Multi-Document Driven Dialogue)を提案する。
GuessMovieには16,881の文書があり、それぞれが映画と関連する13,434の対話を記述している。
提案手法はいくつかの強力なベースライン法よりも優れており,人間の性能に非常に近い。
論文 参考訳(メタデータ) (2021-02-04T06:36:11Z) - Reasoning in Dialog: Improving Response Generation by Context Reading
Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。
読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文 参考訳(メタデータ) (2020-12-14T10:58:01Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。