論文の概要: LUCID: LLM-Generated Utterances for Complex and Interesting Dialogues
- arxiv url: http://arxiv.org/abs/2403.00462v2
- Date: Fri, 3 May 2024 16:57:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 17:27:48.244176
- Title: LUCID: LLM-Generated Utterances for Complex and Interesting Dialogues
- Title(参考訳): LUCID:複雑・興味のある対話のためのLLM生成発話
- Authors: Joe Stacey, Jianpeng Cheng, John Torr, Tristan Guigue, Joris Driesen, Alexandru Coca, Mark Gaynor, Anders Johannsen,
- Abstract要約: バーチャルアシスタントは、対話機能に関して飛躍的に前進する可能性がある。
しかし、真にトランスフォーメーションされたタスク指向の対話機能を実現するための大きなボトルネックは、高品質なデータの不足である。
LUCIDを使用して、100の意図にまたがる4,277の会話のシードデータセットを生成し、その能力を実証しています。
- 参考スコア(独自算出の注目度): 38.6183579217801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spurred by recent advances in Large Language Models (LLMs), virtual assistants are poised to take a leap forward in terms of their dialogue capabilities. Yet a major bottleneck to achieving genuinely transformative task-oriented dialogue capabilities remains the scarcity of high quality data. Existing datasets, while impressive in scale, have limited domain coverage and contain few genuinely challenging conversational phenomena; those which are present are typically unlabelled, making it difficult to assess the strengths and weaknesses of models without time-consuming and costly human evaluation. Moreover, creating high quality dialogue data has until now required considerable human input, limiting both the scale of these datasets and the ability to rapidly bootstrap data for a new target domain. We aim to overcome these issues with LUCID, a modularised and highly automated LLM-driven data generation system that produces realistic, diverse and challenging dialogues. We use LUCID to generate a seed dataset of 4,277 conversations across 100 intents to demonstrate its capabilities, with a human review finding consistently high quality labels in the generated data.
- Abstract(参考訳): 近年のLarge Language Models (LLMs)の進歩により、仮想アシスタントは対話能力の面で飛躍的な進歩を遂げている。
しかし、真にトランスフォーメーションされたタスク指向対話機能を実現するための大きなボトルネックは、高品質なデータの不足である。
既存のデータセットは、スケール的に印象的ではあるが、ドメインカバレッジが限られており、真に困難な会話現象はほとんど含まれていない。
さらに、これまで高品質な対話データの作成には、これらのデータセットのスケールと、新しいターゲットドメインのためのデータの迅速なブートストラップ機能の両方を制限し、かなりの人的入力が必要だった。
LUCIDはモジュール化され,高度に自動化されたLCM駆動型データ生成システムであり,現実的で多様性があり,困難な対話を生成する。
LUCIDを使用して、100の意図にまたがる4,277の会話のシードデータセットを生成し、その能力を示す。
関連論文リスト
- CoDi: Conversational Distillation for Grounded Question Answering [10.265241619616676]
我々はCoDiという新しいデータ蒸留フレームワークを導入する。
CoDiを使えば、大規模でアシスタントスタイルのデータセットを、さまざまな方法で合成することができます。
我々は,CoDi合成データを用いてトレーニングしたSLMが,標準的な測定値において,人間の注釈付きデータに基づいてトレーニングしたモデルに匹敵する性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-20T22:35:47Z) - Efficient Data Generation for Source-grounded Information-seeking Dialogs: A Use Case for Meeting Transcripts [10.829227084902428]
本稿では,Large Language Models (LLMs) を用いたソースグラウンド情報検索ダイアログにおけるデータ生成の実現可能性と有効性について検討する。
私たちはMISeD -- Meeting Information Seeking Dialogsデータセットを作ります。
MISeDの微調整は、完全な手動データによる微調整に匹敵する応答生成品質を提供すると同時に、属性品質を改善し、時間と労力を削減する。
論文 参考訳(メタデータ) (2024-05-02T09:35:06Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - Does Collaborative Human-LM Dialogue Generation Help Information
Extraction from Human Dialogues? [55.28340832822234]
実際のアプリケーションにおける人間の対話の問題解決は、既存のWizard-of-Ozコレクションよりもはるかに複雑である。
本稿では,リアルな対話を合成できる人間間対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-13T20:02:50Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Deep Transfer Learning for Automatic Speech Recognition: Towards Better
Generalization [3.6393183544320236]
深層学習(DL)における音声認識の課題
大規模なトレーニングデータセットと高い計算とストレージリソースが必要です。
ディープトランスファーラーニング(DTL)はこれらの問題を克服するために導入された。
論文 参考訳(メタデータ) (2023-04-27T21:08:05Z) - PRESTO: A Multilingual Dataset for Parsing Realistic Task-Oriented
Dialogs [39.58414649004708]
PRESTOは、人間と仮想アシスタント間の550万以上のコンテキスト多言語会話のデータセットである。
現実のNLUタスクで発生する問題、例えば、障害、コードスイッチング、リビジョンなどが含まれる。
我々のmT5モデルに基づくベースラインは、PRESTOに存在する会話現象をモデル化することが困難であることを示している。
論文 参考訳(メタデータ) (2023-03-15T21:51:13Z) - Weakly Supervised Data Augmentation Through Prompting for Dialogue
Understanding [103.94325597273316]
本稿では,弱教師付きフィルタを適用して拡張品質を反復する手法を提案する。
我々は、デイリーダイアログにおける感情と行動の分類タスクと、Facebook Multilingual Task-Oriented Dialogueにおける意図の分類タスクについて評価した。
特にDailyDialogでは、真理データの10%を使用して、100%のデータを使用する現在の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2022-10-25T17:01:30Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。