論文の概要: Efficient Data Generation for Source-grounded Information-seeking Dialogs: A Use Case for Meeting Transcripts
- arxiv url: http://arxiv.org/abs/2405.01121v1
- Date: Thu, 2 May 2024 09:35:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 17:13:51.745605
- Title: Efficient Data Generation for Source-grounded Information-seeking Dialogs: A Use Case for Meeting Transcripts
- Title(参考訳): ソース・グラウンド情報検索ダイアログの効率的なデータ生成:ミーティング・トランスクリプトのユースケース
- Authors: Lotem Golany, Filippo Galgani, Maya Mamo, Nimrod Parasol, Omer Vandsburger, Nadav Bar, Ido Dagan,
- Abstract要約: ソースベースの情報検索ダイアログデータセットを作成する方法は、しばしばコストがかかり、実装が困難である。
我々は,より効率的で信頼性の高いデータ生成のために,大規模言語モデル(LLM)と人間の専門知識を組み合わせることを提案する。
- 参考スコア(独自算出の注目度): 10.829227084902428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing methods for creating source-grounded information-seeking dialog datasets are often costly and hard to implement due to their sole reliance on human annotators. We propose combining large language models (LLMs) prompting with human expertise for more efficient and reliable data generation. Instead of the labor-intensive Wizard-of-Oz (WOZ) method, where two annotators generate a dialog from scratch, role-playing agent and user, we use LLM generation to simulate the two roles. Annotators then verify the output and augment it with attribution data. We demonstrate our method by constructing MISeD -- Meeting Information Seeking Dialogs dataset -- the first information-seeking dialog dataset focused on meeting transcripts. Models finetuned with MISeD demonstrate superior performance on our test set, as well as on a novel fully-manual WOZ test set and an existing query-based summarization benchmark, suggesting the utility of our approach.
- Abstract(参考訳): 情報源に基づく情報検索ダイアログデータセットを作成する既存の手法は、人間のアノテータにのみ依存するため、コストがかかり、実装が難しいことが多い。
我々は,より効率的で信頼性の高いデータ生成のために,大規模言語モデル(LLM)と人間の専門知識を組み合わせることを提案する。
WOZ(Worker-intensive Wizard-of-Oz)法の代わりに、2つのアノテータがスクラッチ、ロールプレイングエージェント、ユーザからダイアログを生成する。
アノテーションは出力を検証し、属性データで拡張する。
提案手法は,MSED -- Meeting Information Seeking Dialogs データセットを構築することで実証する。
MISeDで微調整されたモデルは、我々のテストセットと、新しい完全手動WOZテストセットと既存のクエリベースの要約ベンチマークにおいて優れた性能を示し、我々のアプローチの有用性を示唆している。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Enhancing Dialogue State Tracking Models through LLM-backed User-Agents Simulation [12.93942316816741]
GPT-4はユーザとエージェントのインタラクションをシミュレートするために使用され、DSTラベルと数千の注釈付き対話を生成する。
生成されたデータとDST予測のための実データとに基づいて、LLaMA2の2段階微調整を行う。
我々のアプローチは、現実世界のシナリオにおける動的な要求に適応し、新しいドメインでの対話を迅速に生成することもできます。
論文 参考訳(メタデータ) (2024-05-17T07:00:05Z) - Simulating Task-Oriented Dialogues with State Transition Graphs and Large Language Models [16.94819621353007]
SynTODは、エンドツーエンドのタスク指向対話(TOD)システムを開発するための新しい合成データ生成手法である。
大規模言語モデルを用いたランダムウォークと応答シミュレーションにより多様な構造化された会話を生成する。
実験では,グラフ誘導応答シミュレーションを用いて意図分類,スロット充填,応答関連性を大幅に改善した。
論文 参考訳(メタデータ) (2024-04-23T06:23:34Z) - Controllable and Diverse Data Augmentation with Large Language Model for Low-Resource Open-Domain Dialogue Generation [6.685921135304385]
LLMを用いたtextbfSummary-based textbfDialogue textbfAugmentationを提案する。
提案手法は,対話要約を計画ツールとして利用することにより,LCMの制御性を向上させる。
要約に基づいて、SDAは小さなシードデータセットであっても、高品質で多様な対話データを生成することができる。
論文 参考訳(メタデータ) (2024-03-30T13:28:51Z) - LUCID: LLM-Generated Utterances for Complex and Interesting Dialogues [38.6183579217801]
バーチャルアシスタントは、対話機能に関して飛躍的に前進する可能性がある。
しかし、真にトランスフォーメーションされたタスク指向の対話機能を実現するための大きなボトルネックは、高品質なデータの不足である。
LUCIDを使用して、100の意図にまたがる4,277の会話のシードデータセットを生成し、その能力を実証しています。
論文 参考訳(メタデータ) (2024-03-01T11:33:53Z) - Evaluating Very Long-Term Conversational Memory of LLM Agents [95.84027826745609]
我々は,高品質で長期的な対話を生成するための,マシン・ヒューマン・パイプラインを導入する。
我々は、各エージェントに画像の共有と反応の能力を持たせる。
生成した会話は、長距離一貫性のために人間のアノテーションによって検証され、編集される。
論文 参考訳(メタデータ) (2024-02-27T18:42:31Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Learning towards Selective Data Augmentation for Dialogue Generation [52.540330534137794]
すべての事例が増補作業に有益である訳ではなく、増補に適した事例は以下の2つの属性に従うべきであると我々は主張する。
応答生成タスクに対してSDA(Selective Data Augmentation framework)を提案する。
論文 参考訳(メタデータ) (2023-03-17T01:26:39Z) - Weakly Supervised Data Augmentation Through Prompting for Dialogue
Understanding [103.94325597273316]
本稿では,弱教師付きフィルタを適用して拡張品質を反復する手法を提案する。
我々は、デイリーダイアログにおける感情と行動の分類タスクと、Facebook Multilingual Task-Oriented Dialogueにおける意図の分類タスクについて評価した。
特にDailyDialogでは、真理データの10%を使用して、100%のデータを使用する現在の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2022-10-25T17:01:30Z) - Paraphrase Augmented Task-Oriented Dialog Generation [68.1790912977053]
本稿では,パラフレーズモデルと応答生成モデルを協調訓練するパラフレーズ拡張応答生成(PARG)フレームワークを提案する。
また、ダイアログ状態とダイアログアクトラベルに基づいて、パラフレーズトレーニングデータセットを自動構築する手法も設計する。
論文 参考訳(メタデータ) (2020-04-16T05:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。