論文の概要: Dialogizer: Context-aware Conversational-QA Dataset Generation from
Textual Sources
- arxiv url: http://arxiv.org/abs/2311.07589v1
- Date: Thu, 9 Nov 2023 06:03:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-19 14:01:53.371821
- Title: Dialogizer: Context-aware Conversational-QA Dataset Generation from
Textual Sources
- Title(参考訳): Dialogizer: テキストソースからコンテキスト対応の会話型QAデータセット生成
- Authors: Yerin Hwang, Yongil Kim, Hyunkyung Bae, Jeesoo Bang, Hwanhee Lee, and
Kyomin Jung
- Abstract要約: 本稿では,文脈関連性の高いConvQAデータセットを自動生成する機能を備えたDialogizerという新しいフレームワークを提案する。
複数のドメインからの文書を一次ソースとして利用して,ConvQAデータセットを4つ作成する。
- 参考スコア(独自算出の注目度): 18.09705075305591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To address the data scarcity issue in Conversational question answering
(ConvQA), a dialog inpainting method, which utilizes documents to generate
ConvQA datasets, has been proposed. However, the original dialog inpainting
model is trained solely on the dialog reconstruction task, resulting in the
generation of questions with low contextual relevance due to insufficient
learning of question-answer alignment. To overcome this limitation, we propose
a novel framework called Dialogizer, which has the capability to automatically
generate ConvQA datasets with high contextual relevance from textual sources.
The framework incorporates two training tasks: question-answer matching (QAM)
and topic-aware dialog generation (TDG). Moreover, re-ranking is conducted
during the inference phase based on the contextual relevance of the generated
questions. Using our framework, we produce four ConvQA datasets by utilizing
documents from multiple domains as the primary source. Through automatic
evaluation using diverse metrics, as well as human evaluation, we validate that
our proposed framework exhibits the ability to generate datasets of higher
quality compared to the baseline dialog inpainting model.
- Abstract(参考訳): 会話型質問応答(ConvQA)におけるデータ不足問題に対処するために,文書を用いてConvQAデータセットを生成するダイアログインペインティング手法が提案されている。
しかし、元のダイアログインペインティングモデルは、ダイアログ復元タスクのみに基づいてトレーニングされ、質問と回答のアライメントの不十分な学習により、文脈的関連性の低い質問が生成される。
この制限を克服するために、テキストソースからコンテキスト関連性の高いConvQAデータセットを自動的に生成するDialogizerという新しいフレームワークを提案する。
このフレームワークには質問応答マッチング(QAM)と話題認識ダイアログ生成(TDG)という2つのトレーニングタスクが含まれている。
さらに、生成した質問の文脈的関連性に基づいて、推論フェーズ中に再ランク付けを行う。
フレームワークを用いて、複数のドメインの文書を主要なソースとして利用することにより、4つのConvQAデータセットを生成します。
多様な指標を用いた自動評価と人的評価により,提案するフレームワークは,ベースラインダイアログの塗装モデルと比較して,高品質なデータセットを生成する能力を示した。
関連論文リスト
- Synthesizing Conversations from Unlabeled Documents using Automatic Response Segmentation [13.322409682814827]
我々は,会話型質問応答システムにおける不適切でコストのかかるデータトレーニングの課題に対処する。
本稿では,ロバストなダイアログ合成手法を提案する。
文境界におけるセグメンテーションを使わずに,ダイアログタスクのためのデータのセグメンテーションを学習する。
論文 参考訳(メタデータ) (2024-06-06T02:52:45Z) - q2d: Turning Questions into Dialogs to Teach Models How to Search [11.421839177607147]
質問から情報検索ダイアログを生成する自動データ生成パイプラインであるq2dを提案する。
検索クエリによる人書きダイアログに依存する従来の手法とは異なり,提案手法では,より優れた制御とスケールで,クエリベースの基底ダイアログを自動的に生成することができる。
論文 参考訳(メタデータ) (2023-04-27T16:39:15Z) - FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - CGoDial: A Large-Scale Benchmark for Chinese Goal-oriented Dialog
Evaluation [75.60156479374416]
CGoDialは、Goal指向のダイアログ評価のための、新しい挑戦的で包括的な中国のベンチマークである。
96,763のダイアログセッションと574,949のダイアログがすべて含まれており、異なる知識ソースを持つ3つのデータセットをカバーする。
学術ベンチマークと音声対話のシナリオのギャップを埋めるために、実際の会話からデータを収集したり、クラウドソーシングを通じて既存のデータセットに音声機能を追加する。
論文 参考訳(メタデータ) (2022-11-21T16:21:41Z) - Manual-Guided Dialogue for Flexible Conversational Agents [84.46598430403886]
対話データを効率的に構築し、利用する方法や、さまざまなドメインにモデルを大規模にデプロイする方法は、タスク指向の対話システムを構築する上で重要な問題である。
エージェントは対話とマニュアルの両方からタスクを学習する。
提案手法は,詳細なドメインオントロジーに対する対話モデルの依存性を低減し,様々なドメインへの適応をより柔軟にする。
論文 参考訳(メタデータ) (2022-08-16T08:21:12Z) - Dialog Inpainting: Turning Documents into Dialogs [12.131506050808207]
私たちは2つのデータセットを作成し、1900万の多様な情報検索ダイアログを作成しました。
WikiDialogの回答の妥当性と会話性は、既存の手作業によるデータセットよりも優れているか、あるいは優れていると判断する。
論文 参考訳(メタデータ) (2022-05-18T16:58:50Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - Reasoning in Dialog: Improving Response Generation by Context Reading
Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。
読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文 参考訳(メタデータ) (2020-12-14T10:58:01Z) - Towards Data Distillation for End-to-end Spoken Conversational Question
Answering [65.124088336738]
音声対話型質問応答タスク(SCQA)を提案する。
SCQAは,音声発話とテキストコーパスから複雑な対話の流れをモデル化することを目的としている。
我々の主な目的は、音声とテキストの両方で会話的な質問に対処するQAシステムを構築することである。
論文 参考訳(メタデータ) (2020-10-18T05:53:39Z) - Matching Questions and Answers in Dialogues from Online Forums [12.64602629459043]
会話における2つのターン間の質問・回答関係のマッチングは、対話構造を解析する最初のステップであるだけでなく、対話システムの訓練にも有用である。
本稿では、相互注意という2つの同時注意機構により、距離情報と対話履歴の両方を考慮したQAマッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-05-19T08:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。