論文の概要: Leveraging Diverse Data Generation for Adaptable Zero-Shot Dialogue State Tracking
- arxiv url: http://arxiv.org/abs/2405.12468v1
- Date: Tue, 21 May 2024 03:04:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 14:28:21.091861
- Title: Leveraging Diverse Data Generation for Adaptable Zero-Shot Dialogue State Tracking
- Title(参考訳): 適応型ゼロショット状態追跡のための逆データ生成の活用
- Authors: James D. Finch, Boxin Zhao, Jinho D. Choi,
- Abstract要約: 本研究は,訓練データの多様性を増大させることで,ゼロショット対話状態追跡(DST)の精度を大幅に向上できることを示す。
提案した研究は、合成ゼロショットDSTトレーニングリソースを作成するために、新しい完全自動データ生成アプローチを使用して、この課題を克服する。
- 参考スコア(独自算出の注目度): 14.06505399101404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work demonstrates that substantial gains in zero-shot dialogue state tracking (DST) accuracy can be achieved by increasing the diversity of training data using synthetic data generation techniques. Current DST training resources are severely limited in the number of application domains and slot types they cover due to the high costs of data collection, resulting in limited adaptability to new domains. The presented work overcomes this challenge using a novel, fully automatic data generation approach to create synthetic zero-shot DST training resources. Unlike previous approaches for generating DST data, the presented approach generates entirely new application domains to generate dialogues, complete with silver dialogue state annotations and slot descriptions. This approach is used to create the D0T dataset for training zero-shot DST models, which covers an unprecedented 1,000+ domains. Experiments performed on the MultiWOZ benchmark indicate that training models on diverse synthetic data yields a performance improvement of +6.7% Joint Goal Accuracy, achieving results competitive with much larger models.
- Abstract(参考訳): 本研究は、合成データ生成技術を用いてトレーニングデータの多様性を増大させることにより、ゼロショット対話状態追跡(DST)の精度を大幅に向上できることを実証する。
現在のDSTトレーニングリソースは、データ収集のコストが高いため、それらがカバーするアプリケーションドメイン数やスロットタイプに大きく制限されているため、新しいドメインへの適応性が制限される。
提案した研究は、合成ゼロショットDSTトレーニングリソースを作成するために、新しい完全自動データ生成アプローチを使用して、この課題を克服する。
DSTデータを生成する従来のアプローチとは異なり、提案されたアプローチは、銀のダイアログ状態アノテーションとスロット記述を備えたダイアログを生成するための全く新しいアプリケーションドメインを生成する。
このアプローチは、前例のない1000以上のドメインをカバーするゼロショットDSTモデルをトレーニングするためのD0Tデータセットを作成するために使用される。
MultiWOZベンチマークで実施された実験では、多様な合成データに対するトレーニングモデルの性能が+6.7%向上し、より大きなモデルと競合する結果が得られた。
関連論文リスト
- REFINE on Scarce Data: Retrieval Enhancement through Fine-Tuning via Model Fusion of Embedding Models [14.023953508288628]
検索拡張生成(RAG)パイプラインは、質問応答(QA)などのタスクで一般的に使用される。
本稿では,利用可能な文書から合成データを生成する新しい手法であるREFINEを提案する。
論文 参考訳(メタデータ) (2024-10-16T08:43:39Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - UNO-DST: Leveraging Unlabelled Data in Zero-Shot Dialogue State Tracking [54.51316566989655]
従来のゼロショット対話状態追跡(DST)手法は、対象領域における非競合データを無視して、転送学習のみを適用した。
我々は,ゼロショットDSTを,ジョイントおよび自己学習手法による非ラベルデータを利用して,少数ショットDSTに変換する。
ゼロショットシナリオにおける汎用言語モデルに対する本手法の有効性を実証し、MultiWOZの全ドメインで平均的な共同ゴール精度を8%向上する。
論文 参考訳(メタデータ) (2023-10-16T15:16:16Z) - Divide, Conquer, and Combine: Mixture of Semantic-Independent Experts
for Zero-Shot Dialogue State Tracking [83.40120598637665]
対話状態追跡(DST)のためのゼロショット転送学習は、ドメイン内のデータを収集するコストを伴わずに、様々なタスク指向の対話ドメインを扱うのに役立つ。
既存の研究は主に一般化を強化するために、一般的なデータまたはモデルレベルの拡張方法を研究する。
我々は、見られているデータのセマンティクスを明示的に切り離す、単純で効果的な「分割、征服、結合」ソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-01T08:21:20Z) - Bridging the Gap: Enhancing the Utility of Synthetic Data via
Post-Processing Techniques [7.967995669387532]
生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして登場した。
本稿では,合成データセットの品質と多様性を向上させるために,新しい3つのポストプロセッシング手法を提案する。
Gap Filler(GaFi)は、Fashion-MNIST、CIFAR-10、CIFAR-100データセットにおいて、実精度スコアとのギャップを2.03%、1.78%、および3.99%に効果的に減少させることを示した。
論文 参考訳(メタデータ) (2023-05-17T10:50:38Z) - ProGen: Progressive Zero-shot Dataset Generation via In-context Feedback [21.168991554983815]
本稿では,プログレッシブなゼロショットデータセット生成フレームワークであるProGenを提案する。
ProGenは、1%の合成データセットサイズで、オンパーまたは優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-22T02:07:10Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Improving Zero and Few-Shot Abstractive Summarization with Intermediate
Fine-tuning and Data Augmentation [101.26235068460551]
大規模テキストコーパス上での自己教師対象による事前学習モデルは、英語テキスト要約タスクにおける最先端のパフォーマンスを達成する。
モデルは通常、数十万のデータポイントで微調整されるが、これは新しいニッチなドメインに要約を適用する際に、実現不可能な要件である。
我々は、教師なし、データセット固有の方法で要約のための訓練済みモデルを微調整するための、WikiTransferと呼ばれる新しい一般化可能な手法を紹介した。
論文 参考訳(メタデータ) (2020-10-24T08:36:49Z) - Zero-Shot Transfer Learning with Synthesized Data for Multi-Domain
Dialogue State Tracking [8.151397072537797]
合成データによるデータ拡張により、ゼロショット学習の精度が向上することを示す。
ドメインごとの平均的なゼロショット学習状態を21%改善する。
論文 参考訳(メタデータ) (2020-05-02T18:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。