論文の概要: A Survey on Recent Advances in Conversational Data Generation
- arxiv url: http://arxiv.org/abs/2405.13003v1
- Date: Sun, 12 May 2024 10:11:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 02:58:21.306096
- Title: A Survey on Recent Advances in Conversational Data Generation
- Title(参考訳): 会話データ生成の最近の進歩に関する調査研究
- Authors: Heydar Soudani, Roxana Petcu, Evangelos Kanoulas, Faegheh Hasibi,
- Abstract要約: マルチターン対話型データ生成の体系的・包括的レビューを行う。
オープンドメイン,タスク指向,情報検索の3種類の対話システムに注目した。
合成会話データを評価するための評価指標と手法について検討する。
- 参考スコア(独自算出の注目度): 14.237954885530396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in conversational systems have significantly enhanced human-machine interactions across various domains. However, training these systems is challenging due to the scarcity of specialized dialogue data. Traditionally, conversational datasets were created through crowdsourcing, but this method has proven costly, limited in scale, and labor-intensive. As a solution, the development of synthetic dialogue data has emerged, utilizing techniques to augment existing datasets or convert textual resources into conversational formats, providing a more efficient and scalable approach to dataset creation. In this survey, we offer a systematic and comprehensive review of multi-turn conversational data generation, focusing on three types of dialogue systems: open domain, task-oriented, and information-seeking. We categorize the existing research based on key components like seed data creation, utterance generation, and quality filtering methods, and introduce a general framework that outlines the main principles of conversation data generation systems. Additionally, we examine the evaluation metrics and methods for assessing synthetic conversational data, address current challenges in the field, and explore potential directions for future research. Our goal is to accelerate progress for researchers and practitioners by presenting an overview of state-of-the-art methods and highlighting opportunities to further research in this area.
- Abstract(参考訳): 近年の会話システムの進歩は、様々な領域における人間と機械の相互作用を著しく向上させてきた。
しかし,特殊な対話データが不足しているため,これらのシステムの訓練は困難である。
伝統的に、会話データセットはクラウドソーシングによって作成されていたが、この手法はコストがかかり、規模が限られ、労働集約的であることが証明された。
ソリューションとして、既存のデータセットを拡張したり、テキストリソースを会話形式に変換する技術を活用して、データセット作成のためのより効率的でスケーラブルなアプローチを提供する合成対話データの開発が登場した。
本稿では,オープンドメイン,タスク指向,情報検索の3種類の対話システムに着目し,マルチターン対話データ生成の体系的・包括的レビューを行う。
本稿では,シードデータ生成や発話生成,品質フィルタリングといったキーコンポーネントに基づく既存研究を分類し,会話データ生成システムの主な原理を概説する一般的なフレームワークを紹介する。
さらに、合成会話データの評価のための評価指標と手法について検討し、現場における課題に対処し、今後の研究に向けた可能性を探る。
我々のゴールは、最先端の手法の概要を提示し、この分野のさらなる研究の機会を強調することで、研究者や実践者の進歩を加速することである。
関連論文リスト
- ProCIS: A Benchmark for Proactive Retrieval in Conversations [21.23826888841565]
本稿では,280万件以上の会話からなるプロアクティブな文書検索のための大規模データセットを提案する。
クラウドソーシング実験を行い、高品質で比較的完全な妥当性判定を行う。
また、各文書に関連する会話部分に関するアノテーションを収集し、前向きな検索システムの評価を可能にする。
論文 参考訳(メタデータ) (2024-05-10T13:11:07Z) - A Systematic Review of Data-to-Text NLG [2.4769539696439677]
高品質なテキストを生成する手法を探索し、テキスト生成における幻覚の課題に対処する。
テキスト品質の進歩にもかかわらず、このレビューは低リソース言語における研究の重要性を強調している。
論文 参考訳(メタデータ) (2024-02-13T14:51:45Z) - Data Augmentation for Conversational AI [17.48107304359591]
データ拡張(DA)は、会話システムにおけるデータ不足問題を軽減するための感情的なアプローチである。
このチュートリアルは、会話システムのコンテキストにおけるDAアプローチの包括的で最新の概要を提供する。
論文 参考訳(メタデータ) (2023-09-09T09:56:35Z) - AUGUST: an Automatic Generation Understudy for Synthesizing
Conversational Recommendation Datasets [56.052803235932686]
本稿では,大規模かつ高品質なレコメンデーションダイアログを生成する新しい自動データセット合成手法を提案する。
i)従来のレコメンデーションデータセットからの豊富なパーソナライズされたユーザプロファイル、(ii)知識グラフからの豊富な外部知識、(iii)人間対人間会話レコメンデーションデータセットに含まれる会話能力。
論文 参考訳(メタデータ) (2023-06-16T05:27:14Z) - FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - Taxonomy of Abstractive Dialogue Summarization: Scenarios, Approaches
and Future Directions [14.85592662663867]
この調査は、シナリオから抽象的な対話を要約するための既存の研究を包括的に調査する。
タスクは入力ダイアログの種類、すなわちオープンドメインとタスク指向の2つの幅広いカテゴリに分類される。
既存のテクニックを3方向に分類し、対話機能を注入し、補助訓練タスクを設計し、追加データを使用する。
論文 参考訳(メタデータ) (2022-10-18T14:33:03Z) - Dialogue Term Extraction using Transfer Learning and Topological Data
Analysis [0.8185867455104834]
我々は、純粋にデータ駆動方式で対話におけるドメイン、スロット、値の認識を可能にするさまざまな機能を探究する。
各特徴セットの有用性を検討するために、広く使われているMultiWOZデータセットに基づいてシードモデルを訓練する。
提案手法は,単語の埋め込みのみに依存する従来の手法よりも優れている。
論文 参考訳(メタデータ) (2022-08-22T17:04:04Z) - HybriDialogue: An Information-Seeking Dialogue Dataset Grounded on
Tabular and Textual Data [87.67278915655712]
我々は、ウィキペディアのテキストとテーブルの両方を基盤とした、クラウドソーシングされた自然な会話からなる新しい対話データセットHybriDialogueを提示する。
これらの会話は、複雑なマルチホップ質問をシンプルで現実的なマルチターン対話に分解することで生成される。
論文 参考訳(メタデータ) (2022-04-28T00:52:16Z) - Automatic Evaluation and Moderation of Open-domain Dialogue Systems [59.305712262126264]
研究者が悩む長きにわたる課題は、効果的な自動評価指標の欠如である。
本稿では, 対話システム技術チャレンジ10(DSTC10)におけるトラック5で得られたデータ, ベースライン, 結果について述べる。
論文 参考訳(メタデータ) (2021-11-03T10:08:05Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - Retrieval-Free Knowledge-Grounded Dialogue Response Generation with
Adapters [52.725200145600624]
軽量アダプタで事前学習した言語モデルに事前知識を注入し、検索プロセスをバイパスする KnowExpert を提案する。
実験結果から,KnowExpertは検索ベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2021-05-13T12:33:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。