論文の概要: DG2: Data Augmentation Through Document Grounded Dialogue Generation
- arxiv url: http://arxiv.org/abs/2112.08342v1
- Date: Wed, 15 Dec 2021 18:50:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 14:45:12.565227
- Title: DG2: Data Augmentation Through Document Grounded Dialogue Generation
- Title(参考訳): DG2: 文書接地対話生成によるデータ拡張
- Authors: Qingyang Wu, Song Feng, Derek Chen, Sachindra Joshi, Luis A. Lastras,
Zhou Yu
- Abstract要約: 生成対話モデルを用いて文書に基づく自動データ拡張手法を提案する。
元のデータセットを補うと、従来のデータ拡張手法よりも大幅に改善される。
- 参考スコア(独自算出の注目度): 41.81030088619399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collecting data for training dialog systems can be extremely expensive due to
the involvement of human participants and need for extensive annotation.
Especially in document-grounded dialog systems, human experts need to carefully
read the unstructured documents to answer the users' questions. As a result,
existing document-grounded dialog datasets are relatively small-scale and
obstruct the effective training of dialogue systems. In this paper, we propose
an automatic data augmentation technique grounded on documents through a
generative dialogue model. The dialogue model consists of a user bot and agent
bot that can synthesize diverse dialogues given an input document, which are
then used to train a downstream model. When supplementing the original dataset,
our method achieves significant improvement over traditional data augmentation
methods. We also achieve great performance in the low-resource setting.
- Abstract(参考訳): トレーニング用ダイアログシステムのためのデータ収集は、人間の関与と広範なアノテーションを必要とするため、非常に高価である。
特に文書化された対話システムでは、人間の専門家はユーザの質問に答えるために構造化されていない文書を注意深く読む必要がある。
その結果、既存のドキュメント・グラウンド・ダイアログデータセットは比較的小規模であり、対話システムの効果的なトレーニングを妨げている。
本稿では,生成対話モデルを用いて文書に基づく自動データ拡張手法を提案する。
対話モデルは、入力文書が与えられた多様な対話を合成できるユーザボットとエージェントボットで構成され、下流モデルのトレーニングに使用される。
元のデータセットを補うと、従来のデータ拡張手法よりも大幅に改善される。
低リソース環境でも優れたパフォーマンスを実現しています。
関連論文リスト
- Contextual Data Augmentation for Task-Oriented Dialog Systems [8.085645180329417]
本研究では,ユーザターンを生成する新しいダイアログ拡張モデルを構築し,完全なダイアログコンテキストを条件づける。
言語モデルの新しいプロンプト設計と出力の再ランク付けにより、我々のモデルから生成されたダイアログを直接使用して、下流ダイアログシステムのトレーニングを行うことができる。
論文 参考訳(メタデータ) (2023-10-16T13:22:34Z) - Controllable Dialogue Simulation with In-Context Learning [39.04491297557292]
textscDialogicは、大規模言語モデルに基づく対話シミュレーション手法である。
本手法は,人間の関与を最小あるいはゼロに抑えながら,少数の対話データを迅速に拡張することができる。
我々のシミュレートされた対話は、ほぼ人間に近い流速とアノテーションの精度を持つ。
論文 参考訳(メタデータ) (2022-10-09T06:32:58Z) - Manual-Guided Dialogue for Flexible Conversational Agents [84.46598430403886]
対話データを効率的に構築し、利用する方法や、さまざまなドメインにモデルを大規模にデプロイする方法は、タスク指向の対話システムを構築する上で重要な問題である。
エージェントは対話とマニュアルの両方からタスクを学習する。
提案手法は,詳細なドメインオントロジーに対する対話モデルの依存性を低減し,様々なドメインへの適応をより柔軟にする。
論文 参考訳(メタデータ) (2022-08-16T08:21:12Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - Response Generation with Context-Aware Prompt Learning [19.340498579331555]
本稿では,対話生成問題を素早い学習課題とする,事前学習型対話モデリングのための新しい手法を提案する。
限られた対話データを微調整する代わりに、我々のアプローチであるDialogPromptは、対話コンテキストに最適化された連続的なプロンプト埋め込みを学習する。
提案手法は,微調整ベースラインと汎用的なプロンプト学習法を著しく上回っている。
論文 参考訳(メタデータ) (2021-11-04T05:40:13Z) - Dialogue Distillation: Open-Domain Dialogue Augmentation Using Unpaired
Data [61.71319905364992]
未ペアデータを利用したオープンドメイン対話モデルのトレーニングのための新しいデータ拡張手法を提案する。
データレベルの蒸留プロセスが最初に提案され、未確認データからポストとレスポンスの両方を検索する拡張ダイアログを構築する。
低品質の対話をフィルタリングするためにランキングモジュールが使用される。
モデルレベルの蒸留プロセスを用いて、高品質なペアデータに基づいて訓練された教師モデルを、強化された対話ペアに蒸留する。
論文 参考訳(メタデータ) (2020-09-20T13:06:38Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z) - Paraphrase Augmented Task-Oriented Dialog Generation [68.1790912977053]
本稿では,パラフレーズモデルと応答生成モデルを協調訓練するパラフレーズ拡張応答生成(PARG)フレームワークを提案する。
また、ダイアログ状態とダイアログアクトラベルに基づいて、パラフレーズトレーニングデータセットを自動構築する手法も設計する。
論文 参考訳(メタデータ) (2020-04-16T05:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。