論文の概要: Controllable and Diverse Data Augmentation with Large Language Model for Low-Resource Open-Domain Dialogue Generation
- arxiv url: http://arxiv.org/abs/2404.00361v1
- Date: Sat, 30 Mar 2024 13:28:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 04:10:32.497909
- Title: Controllable and Diverse Data Augmentation with Large Language Model for Low-Resource Open-Domain Dialogue Generation
- Title(参考訳): 低リソースオープンドメイン対話生成のための大言語モデルによる可制御・多言語データ拡張
- Authors: Zhenhua Liu, Tong Zhu, Jianxiang Xiang, Wenliang Chen,
- Abstract要約: LLMを用いたtextbfSummary-based textbfDialogue textbfAugmentationを提案する。
提案手法は,対話要約を計画ツールとして利用することにより,LCMの制御性を向上させる。
要約に基づいて、SDAは小さなシードデータセットであっても、高品質で多様な対話データを生成することができる。
- 参考スコア(独自算出の注目度): 6.685921135304385
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Data augmentation (DA) is crucial to mitigate model training instability and over-fitting problems in low-resource open-domain dialogue generation. However, traditional DA methods often neglect semantic data diversity, restricting the overall quality. Recently, large language models (LLM) have been used for DA to generate diversified dialogues. However, they have limited controllability and tend to generate dialogues with a distribution shift compared to the seed dialogues. To maximize the augmentation diversity and address the controllability problem, we propose \textbf{S}ummary-based \textbf{D}ialogue \textbf{A}ugmentation with LLM (SDA). Our approach enhances the controllability of LLM by using dialogue summaries as a planning tool. Based on summaries, SDA can generate high-quality and diverse dialogue data even with a small seed dataset. To evaluate the efficacy of data augmentation methods for open-domain dialogue, we designed a clustering-based metric to characterize the semantic diversity of the augmented dialogue data. The experimental results show that SDA can augment high-quality and semantically diverse dialogues given a small seed dataset and an LLM, and the augmented data can boost the performance of open-domain dialogue models.
- Abstract(参考訳): データ拡張(DA)は、低リソースのオープンドメイン対話生成におけるモデルの不安定性と過度に適合する問題を緩和するために重要である。
しかし、従来のDAメソッドは意味データの多様性を無視し、全体的な品質を制限します。
近年,大規模言語モデル (LLM) は多種多様な対話を生成するためにDAに使われている。
しかし、制御性は限られており、種子対話と比較して分布シフトを伴う対話を生成する傾向がある。
拡張の多様性を最大化し、制御可能性の問題に対処するために、LLM (SDA) を用いた \textbf{S}ummary-based \textbf{D}ialogue \textbf{A}ugmentation を提案する。
提案手法は,対話要約を計画ツールとして利用することにより,LCMの制御性を向上させる。
要約に基づいて、SDAは小さなシードデータセットであっても、高品質で多様な対話データを生成することができる。
オープンドメイン対話におけるデータ拡張手法の有効性を評価するために,拡張対話データの意味的多様性を特徴付けるクラスタリングに基づくメトリクスを設計した。
実験結果から、SDAは、小さなシードデータセットとLLMが与えられた高品質で意味的に多様な対話を増強でき、拡張データによりオープンドメイン対話モデルの性能が向上することが示された。
関連論文リスト
- DFlow: Diverse Dialogue Flow Simulation with Large Language Models [16.209331014315463]
本稿では,合成対話の多様性を高めるために,新たなデータ拡張手法を提案する。
我々は、15の異なる領域に3,886の対話フローからなるタスク指向対話データセットを生成する。
論文 参考訳(メタデータ) (2024-10-18T20:35:28Z) - DiaSynth: Synthetic Dialogue Generation Framework for Low Resource Dialogue Applications [18.378069426713]
既存の研究は、対話システムの訓練に十分なスケールが欠けている一般またはニッチなデータセットによって制約されている。
本稿では,高品質で文脈的にリッチな対話を生成可能な合成対話生成フレームワークであるDia Synthを紹介する。
我々は,異なるLLMを用いて合成データを生成し,DialogSum とSAMSum を例に挙げて実験を行った。
論文 参考訳(メタデータ) (2024-09-25T07:03:31Z) - Data Augmentation Integrating Dialogue Flow and Style to Adapt Spoken Dialogue Systems to Low-Resource User Groups [1.7725414095035827]
本研究では,音声対話システム(SDS)が,対話行動の異なるユーザと対話する場合に直面する課題について考察する。
限られたリソースを持つユーザグループのSDS性能を向上させるための新しいデータ拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-20T03:33:04Z) - Plan, Generate and Complicate: Improving Low-resource Dialogue State Tracking via Easy-to-Difficult Zero-shot Data Augmentation [5.042738414157664]
我々は,低リソースの対話状態追跡のためのZero-shot Data AugmentationフレームワークであるEDZ-DAを提案する。
また、ドメイン関係に基づいて対話を複雑化し、参照スロット追跡のためのモデルの能力を高める。
論文 参考訳(メタデータ) (2024-06-13T06:49:03Z) - Efficient Data Generation for Source-grounded Information-seeking Dialogs: A Use Case for Meeting Transcripts [10.829227084902428]
本稿では,Large Language Models (LLMs) を用いたソースグラウンド情報検索ダイアログにおけるデータ生成の実現可能性と有効性について検討する。
私たちはMISeD -- Meeting Information Seeking Dialogsデータセットを作ります。
MISeDの微調整は、完全な手動データによる微調整に匹敵する応答生成品質を提供すると同時に、属性品質を改善し、時間と労力を削減する。
論文 参考訳(メタデータ) (2024-05-02T09:35:06Z) - Enhancing Task Bot Engagement with Synthesized Open-Domain Dialog [89.35658776144638]
TODとODDの両方を扱えるシステムを構築し、異なる知識ソースにアクセスすることが不可欠である。
本稿では,知識基盤のODDとTODを組み合わせた対話を自動的に生成するフレームワークを提案する。
本研究では,TODモードとODDモードを適切に適用し,異なる知識ソースにアクセス可能な統合モデルPivotBotを提案する。
論文 参考訳(メタデータ) (2022-12-20T05:51:47Z) - Weakly Supervised Data Augmentation Through Prompting for Dialogue
Understanding [103.94325597273316]
本稿では,弱教師付きフィルタを適用して拡張品質を反復する手法を提案する。
我々は、デイリーダイアログにおける感情と行動の分類タスクと、Facebook Multilingual Task-Oriented Dialogueにおける意図の分類タスクについて評価した。
特にDailyDialogでは、真理データの10%を使用して、100%のデータを使用する現在の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2022-10-25T17:01:30Z) - A Mixture-of-Expert Approach to RL-based Dialogue Management [56.08449336469477]
我々は、強化学習を用いて、近視性(一般的な発話の出力)を回避し、全体的なユーザ満足度を最大化する対話エージェントを開発する。
既存のRLアプローチのほとんどは、単語レベルでエージェントを訓練するので、中規模の語彙であっても、非常に複雑なアクション空間を扱う必要がある。
i)会話履歴の多様な意味を学習できるLMと、(ii)対応する発話を生成できる専門的なLM(または専門家)からなる、新しい専門家言語モデル(MoE-LM)を用いたRLベースのDMを開発する。
論文 参考訳(メタデータ) (2022-05-31T19:00:41Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Dialogue Distillation: Open-Domain Dialogue Augmentation Using Unpaired
Data [61.71319905364992]
未ペアデータを利用したオープンドメイン対話モデルのトレーニングのための新しいデータ拡張手法を提案する。
データレベルの蒸留プロセスが最初に提案され、未確認データからポストとレスポンスの両方を検索する拡張ダイアログを構築する。
低品質の対話をフィルタリングするためにランキングモジュールが使用される。
モデルレベルの蒸留プロセスを用いて、高品質なペアデータに基づいて訓練された教師モデルを、強化された対話ペアに蒸留する。
論文 参考訳(メタデータ) (2020-09-20T13:06:38Z) - Paraphrase Augmented Task-Oriented Dialog Generation [68.1790912977053]
本稿では,パラフレーズモデルと応答生成モデルを協調訓練するパラフレーズ拡張応答生成(PARG)フレームワークを提案する。
また、ダイアログ状態とダイアログアクトラベルに基づいて、パラフレーズトレーニングデータセットを自動構築する手法も設計する。
論文 参考訳(メタデータ) (2020-04-16T05:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。