論文の概要: Weakly Supervised Data Augmentation Through Prompting for Dialogue
Understanding
- arxiv url: http://arxiv.org/abs/2210.14169v1
- Date: Tue, 25 Oct 2022 17:01:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 13:03:56.849206
- Title: Weakly Supervised Data Augmentation Through Prompting for Dialogue
Understanding
- Title(参考訳): 対話理解のためのプロンプティングによる弱修正データ拡張
- Authors: Maximillian Chen, Alexandros Papangelis, Chenyang Tao, Andy Rosenbaum,
Seokhwan Kim, Yang Liu, Zhou Yu, Dilek Hakkani-Tur
- Abstract要約: 本稿では,弱教師付きフィルタを適用して拡張品質を反復する手法を提案する。
我々は、デイリーダイアログにおける感情と行動の分類タスクと、Facebook Multilingual Task-Oriented Dialogueにおける意図の分類タスクについて評価した。
特にDailyDialogでは、真理データの10%を使用して、100%のデータを使用する現在の最先端モデルよりも優れています。
- 参考スコア(独自算出の注目度): 103.94325597273316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialogue understanding tasks often necessitate abundant annotated data to
achieve good performance and that presents challenges in low-resource settings.
To alleviate this barrier, we explore few-shot data augmentation for dialogue
understanding by prompting large pre-trained language models and present a
novel approach that iterates on augmentation quality by applying
weakly-supervised filters. We evaluate our methods on the emotion and act
classification tasks in DailyDialog and the intent classification task in
Facebook Multilingual Task-Oriented Dialogue. Models fine-tuned on our
augmented data mixed with few-shot ground truth data are able to approach or
surpass existing state-of-the-art performance on both datasets. For DailyDialog
specifically, using 10% of the ground truth data we outperform the current
state-of-the-art model which uses 100% of the data.
- Abstract(参考訳): 対話理解タスクは、優れたパフォーマンスを達成するために豊富な注釈データを必要とし、低リソース設定において課題を呈する。
この障壁を緩和するために, 大規模事前学習言語モデルによる対話理解のためのわずかなデータ拡張を探求し, 弱教師付きフィルタの適用による拡張品質の向上を反復する新しいアプローチを提案する。
我々は、デイリーダイアログにおける感情・行動分類タスクと、Facebook Multilingual Task-Oriented Dialogueにおける意図分類タスクについて評価した。
拡張データに微調整されたモデルと、最小限のグランド真実データを組み合わせて、両方のデータセットで既存の最先端のパフォーマンスにアプローチしたり、上回ったりすることが可能です。
特にDailyDialogでは、真理データの10%を使用して、100%のデータを使用する現在の最先端モデルよりも優れています。
関連論文リスト
- DFlow: Diverse Dialogue Flow Simulation with Large Language Models [16.209331014315463]
本稿では,合成対話の多様性を高めるために,新たなデータ拡張手法を提案する。
我々は、15の異なる領域に3,886の対話フローからなるタスク指向対話データセットを生成する。
論文 参考訳(メタデータ) (2024-10-18T20:35:28Z) - Efficient Data Generation for Source-grounded Information-seeking Dialogs: A Use Case for Meeting Transcripts [10.829227084902428]
本稿では,Large Language Models (LLMs) を用いたソースグラウンド情報検索ダイアログにおけるデータ生成の実現可能性と有効性について検討する。
私たちはMISeD -- Meeting Information Seeking Dialogsデータセットを作ります。
MISeDの微調整は、完全な手動データによる微調整に匹敵する応答生成品質を提供すると同時に、属性品質を改善し、時間と労力を削減する。
論文 参考訳(メタデータ) (2024-05-02T09:35:06Z) - CGoDial: A Large-Scale Benchmark for Chinese Goal-oriented Dialog
Evaluation [75.60156479374416]
CGoDialは、Goal指向のダイアログ評価のための、新しい挑戦的で包括的な中国のベンチマークである。
96,763のダイアログセッションと574,949のダイアログがすべて含まれており、異なる知識ソースを持つ3つのデータセットをカバーする。
学術ベンチマークと音声対話のシナリオのギャップを埋めるために、実際の会話からデータを収集したり、クラウドソーシングを通じて既存のデータセットに音声機能を追加する。
論文 参考訳(メタデータ) (2022-11-21T16:21:41Z) - A Model-Agnostic Data Manipulation Method for Persona-based Dialogue
Generation [107.82729587882397]
現在のペルソナベースの対話データセットのスケールアップには費用がかかる。
このタスクの各データサンプルは、従来の対話データよりも複雑である。
本稿では,ペルソナをベースとした対話生成モデルにおいて,モデルに依存しないデータ操作手法を提案する。
論文 参考訳(メタデータ) (2022-04-21T03:49:54Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Contextual Semantic Parsing for Multilingual Task-Oriented Dialogues [7.8378818005171125]
1つの言語で大規模な対話データセットをセットすると、機械翻訳を用いて他の言語に対して効果的な意味を自動生成できる。
本稿では、スロット値の忠実な翻訳を保証するために、アライメント付き対話データセットの自動翻訳を提案する。
簡潔な表現が翻訳誤りの複合効果を減少させることを示す。
論文 参考訳(メタデータ) (2021-11-04T01:08:14Z) - Learning to Learn End-to-End Goal-Oriented Dialog From Related Dialog
Tasks [33.77022912718379]
関連ダイアログタスクのデータで補足された少量のデータしか利用できないことを示す。
本稿では,関連する対話タスクデータからメタ学習を選択的に学習する手法について述べる。
論文 参考訳(メタデータ) (2021-10-10T15:27:45Z) - Dialogue Distillation: Open-Domain Dialogue Augmentation Using Unpaired
Data [61.71319905364992]
未ペアデータを利用したオープンドメイン対話モデルのトレーニングのための新しいデータ拡張手法を提案する。
データレベルの蒸留プロセスが最初に提案され、未確認データからポストとレスポンスの両方を検索する拡張ダイアログを構築する。
低品質の対話をフィルタリングするためにランキングモジュールが使用される。
モデルレベルの蒸留プロセスを用いて、高品質なペアデータに基づいて訓練された教師モデルを、強化された対話ペアに蒸留する。
論文 参考訳(メタデータ) (2020-09-20T13:06:38Z) - Paraphrase Augmented Task-Oriented Dialog Generation [68.1790912977053]
本稿では,パラフレーズモデルと応答生成モデルを協調訓練するパラフレーズ拡張応答生成(PARG)フレームワークを提案する。
また、ダイアログ状態とダイアログアクトラベルに基づいて、パラフレーズトレーニングデータセットを自動構築する手法も設計する。
論文 参考訳(メタデータ) (2020-04-16T05:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。