論文の概要: DiaSynth -- Synthetic Dialogue Generation Framework
- arxiv url: http://arxiv.org/abs/2409.19020v1
- Date: Tue, 15 Oct 2024 12:55:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 04:50:50.855918
- Title: DiaSynth -- Synthetic Dialogue Generation Framework
- Title(参考訳): DiaSynth - 合成対話生成フレームワーク
- Authors: Sathya Krishnan Suresh, Wu Mengjun, Tushar Pranav, Eng Siong Chng,
- Abstract要約: Dia Synthは、さまざまなドメインにわたる高品質でコンテキストに富んだ対話を生成することができる合成対話生成フレームワークである。
我々のアプローチは、シミュレーションされたペルソナ、サブトピック、多様な会話特性を含む対話を動的に生成することで、既存のフレームワークと異なる。
我々は,異なるLLMを用いて合成データを生成し,DialogSum とSAMSum を例に挙げて実験を行った。
- 参考スコア(独自算出の注目度): 18.378069426713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scarcity of domain specific dialogue datasets across various domains, from academic topics to everyday conversations, limits the development of dialogue systems for various applications. Existing research is often constrained either by dialogue datasets that are too general or by niche domain dialogue datasets whose scale does not match the required scale for training dialogue systems. To address this gap, we introduce DiaSynth - a synthetic dialogue generation framework capable of generating high quality, contextually rich dialogues across a wide range of domains. Our approach differs from existing frameworks by dynamically generating dialogues that incorporate simulated personas, subtopics, and diverse conversational characteristics, using a Large Language Model (LLM) with Chain of Thought (CoT) reasoning to create contextually rich, domain-specific dialogues that closely mimic natural human interactions. DiaSynth produces tailored dialogues that emulate realistic conversations. We perform our experiments by generating synthetic data using different LLMs and few-shot examples from DialogSum and SAMSum. The pretrained language models fine-tuned on the synthetic data outperform the base models by 16.47%, while the comparison between models fine-tuned on in-domain data and synthetic data shows that the synthetic data is able to capture 90.48% of the distribution of the in-domain data. The quality of the data generated also scales with the size of LLMs. These results validate DiaSynth's potential as a robust alternative to traditional data collection methods.
- Abstract(参考訳): 学術的な話題から日常的な会話に至るまで、ドメイン固有の対話データセットの不足は、様々なアプリケーションのための対話システムの開発を制限する。
既存の研究は、あまりにも一般的すぎる対話データセットや、スケールが対話システムの訓練に必要なスケールに合わないニッチなドメイン対話データセットによって制約されることが多い。
このギャップに対処するために、DiaSynthは、様々な領域にわたる高品質で文脈的にリッチな対話を生成することができる合成対話生成フレームワークである。
提案手法は従来のフレームワークと異なり,シミュレーションされたペルソナ,サブトピック,多様な会話特性を取り入れた対話を動的に生成し,思考の連鎖(CoT)推論を用いたLarge Language Model(LLM)を用いて,人間との対話を密接に模倣するコンテキスト的にリッチなドメイン固有対話を生成する。
DiaSynthは、リアルな会話をエミュレートするカスタマイズされた対話を生成する。
我々は,異なるLLMを用いて合成データを生成し,DialogSum とSAMSum を例に挙げて実験を行った。
事前訓練された言語モデルは、合成データに基づいて微調整され、ベースモデルは16.47%向上する一方、ドメイン内データと合成データに基づいて微調整されたモデルの比較は、合成データがドメイン内データの分布の90.48%を捉えることができることを示している。
生成されたデータの品質は、LLMのサイズとともにスケールする。
これらの結果はDiaSynthの従来のデータ収集手法の強力な代替としての可能性を検証する。
関連論文リスト
- ToolFlow: Boosting LLM Tool-Calling Through Natural and Coherent Dialogue Synthesis [80.34000499166648]
より関連性の高いツールの組み合わせをサンプリングするためのグラフベースのサンプリング戦略と、コヒーレントな対話の合成を導く計画を作成するための計画生成戦略を提案する。
ツールフローで生成した8000の合成対話を用いてLLaMA-3.1-8BにSFTを適用した。
その結果,GPT-4に匹敵するツールコール性能が得られた。
論文 参考訳(メタデータ) (2024-10-24T05:45:04Z) - Scalable Frame-based Construction of Sociocultural NormBases for Socially-Aware Dialogues [66.69453609603875]
社会文化的規範は、社会的相互作用における個人的行為の指針となる。
大規模言語モデル(LLM)を用いた社会文化的ノルム(SCN)ベース構築のためのスケーラブルなアプローチを提案する。
我々は、包括的で広くアクセス可能な中国社会文化ノルムベースを構築した。
論文 参考訳(メタデータ) (2024-10-04T00:08:46Z) - A Framework for Synthetic Audio Conversations Generation using Large Language Models [0.0]
Conversa Synthは、複数のペルソナ設定を持つ大規模言語モデル(LLM)を使用して合成会話音声を生成するように設計されたフレームワークである。
このフレームワークはまず、さまざまなトピックにわたる多様で一貫性のあるテキストベースの対話を生成し、その後、TTS(text-to-speech)システムを使用して音声に変換する。
論文 参考訳(メタデータ) (2024-09-02T05:09:46Z) - Self-Directed Synthetic Dialogues and Revisions Technical Report [16.587350874099638]
自己指向型合成対話(Self Directed Synthetic Dialogues, SDSD)は, 言語モデル同士の対話をガイドした実験データセットである。
SDSDは、DBRX、Llama 2 70B、Mistral Largeで生成されたマルチターン会話で構成され、会話の前に生成された会話計画に従うように指示される。
論文 参考訳(メタデータ) (2024-07-25T22:42:36Z) - Simulating Task-Oriented Dialogues with State Transition Graphs and Large Language Models [16.94819621353007]
SynTODは、エンドツーエンドのタスク指向対話(TOD)システムを開発するための新しい合成データ生成手法である。
大規模言語モデルを用いたランダムウォークと応答シミュレーションにより多様な構造化された会話を生成する。
実験では,グラフ誘導応答シミュレーションを用いて意図分類,スロット充填,応答関連性を大幅に改善した。
論文 参考訳(メタデータ) (2024-04-23T06:23:34Z) - Controllable and Diverse Data Augmentation with Large Language Model for Low-Resource Open-Domain Dialogue Generation [6.685921135304385]
LLMを用いたtextbfSummary-based textbfDialogue textbfAugmentationを提案する。
提案手法は,対話要約を計画ツールとして利用することにより,LCMの制御性を向上させる。
要約に基づいて、SDAは小さなシードデータセットであっても、高品質で多様な対話データを生成することができる。
論文 参考訳(メタデータ) (2024-03-30T13:28:51Z) - Does Collaborative Human-LM Dialogue Generation Help Information
Extraction from Human Dialogues? [55.28340832822234]
実際のアプリケーションにおける人間の対話の問題解決は、既存のWizard-of-Ozコレクションよりもはるかに複雑である。
本稿では,リアルな対話を合成できる人間間対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-13T20:02:50Z) - Controllable Dialogue Simulation with In-Context Learning [39.04491297557292]
textscDialogicは、大規模言語モデルに基づく対話シミュレーション手法である。
本手法は,人間の関与を最小あるいはゼロに抑えながら,少数の対話データを迅速に拡張することができる。
我々のシミュレートされた対話は、ほぼ人間に近い流速とアノテーションの精度を持つ。
論文 参考訳(メタデータ) (2022-10-09T06:32:58Z) - Dialogue Distillation: Open-Domain Dialogue Augmentation Using Unpaired
Data [61.71319905364992]
未ペアデータを利用したオープンドメイン対話モデルのトレーニングのための新しいデータ拡張手法を提案する。
データレベルの蒸留プロセスが最初に提案され、未確認データからポストとレスポンスの両方を検索する拡張ダイアログを構築する。
低品質の対話をフィルタリングするためにランキングモジュールが使用される。
モデルレベルの蒸留プロセスを用いて、高品質なペアデータに基づいて訓練された教師モデルを、強化された対話ペアに蒸留する。
論文 参考訳(メタデータ) (2020-09-20T13:06:38Z) - Paraphrase Augmented Task-Oriented Dialog Generation [68.1790912977053]
本稿では,パラフレーズモデルと応答生成モデルを協調訓練するパラフレーズ拡張応答生成(PARG)フレームワークを提案する。
また、ダイアログ状態とダイアログアクトラベルに基づいて、パラフレーズトレーニングデータセットを自動構築する手法も設計する。
論文 参考訳(メタデータ) (2020-04-16T05:12:36Z) - Variational Hierarchical Dialog Autoencoder for Dialog State Tracking
Data Augmentation [59.174903564894954]
本研究では,この手法を,ゴール指向対話のための対話状態追跡タスクに拡張する。
目的指向ダイアログの完全な側面をモデル化するための変分階層型ダイアログオートエンコーダ(VHDA)を提案する。
各種ダイアログデータセットを用いた実験により、生成データ拡張による下流ダイアログトラッカーのロバスト性の向上が示された。
論文 参考訳(メタデータ) (2020-01-23T15:34:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。