論文の概要: TarGEN: Targeted Data Generation with Large Language Models
- arxiv url: http://arxiv.org/abs/2310.17876v2
- Date: Mon, 30 Oct 2023 19:08:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 10:10:05.792179
- Title: TarGEN: Targeted Data Generation with Large Language Models
- Title(参考訳): TarGEN: 大規模言語モデルによるターゲットデータ生成
- Authors: Himanshu Gupta and Kevin Scaria and Ujjwala Anantheswaran and Shreyas
Verma and Mihir Parmar and Saurabh Arjun Sawant and Chitta Baral and Swaroop
Mishra
- Abstract要約: TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
- 参考スコア(独自算出の注目度): 54.1093098278564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of large language models (LLMs) has sparked interest in
data synthesis techniques, aiming to generate diverse and high-quality
synthetic datasets. However, these synthetic datasets often suffer from a lack
of diversity and added noise. In this paper, we present TarGEN, a multi-step
prompting strategy for generating high-quality synthetic datasets utilizing a
LLM. An advantage of TarGEN is its seedless nature; it does not require
specific task instances, broadening its applicability beyond task replication.
We augment TarGEN with a method known as self-correction empowering LLMs to
rectify inaccurately labeled instances during dataset creation, ensuring
reliable labels. To assess our technique's effectiveness, we emulate 8 tasks
from the SuperGLUE benchmark and finetune various language models, including
encoder-only, encoder-decoder, and decoder-only models on both synthetic and
original training sets. Evaluation on the original test set reveals that models
trained on datasets generated by TarGEN perform approximately 1-2% points
better than those trained on original datasets (82.84% via syn. vs. 81.12% on
og. using Flan-T5). When incorporating instruction tuning, the performance
increases to 84.54% on synthetic data vs. 81.49% on original data by Flan-T5. A
comprehensive analysis of the synthetic dataset compared to the original
dataset reveals that the synthetic dataset demonstrates similar or higher
levels of dataset complexity and diversity. Furthermore, the synthetic dataset
displays a bias level that aligns closely with the original dataset. Finally,
when pre-finetuned on our synthetic SuperGLUE dataset, T5-3B yields impressive
results on the OpenLLM leaderboard, surpassing the model trained on the
Self-Instruct dataset by 4.14% points. We hope that TarGEN can be helpful for
quality data generation and reducing the human efforts to create complex
benchmarks.
- Abstract(参考訳): 大規模言語モデル(llm)の急速な進歩は、多様で高品質な合成データセットを生成することを目的として、データ合成技術への関心を高めた。
しかし、これらの合成データセットは、しばしば多様性の欠如とノイズの増加に苦しむ。
本稿では,llmを用いた高品質合成データセット生成のための多段階プロンプト戦略であるtargenを提案する。
TarGENの利点は、その種なしの性質であり、特定のタスクインスタンスを必要としない。
我々は、データセット作成中に不正確なラベル付きインスタンスを修正し、信頼性のあるラベルを確実にする自己補正と呼ばれる手法でTarGENを拡張した。
提案手法の有効性を評価するため,SuperGLUEベンチマークから8つのタスクをエミュレートし,エンコーダのみ,エンコーダのみ,エンコーダのみ,デコーダのみのモデルを含む各種言語モデルを合成およびオリジナルトレーニングセットで微調整する。
オリジナルのテストセットの評価によると、TarGENが生成したデータセットでトレーニングしたモデルは、オリジナルのデータセットでトレーニングしたモデルよりも約1-2%パフォーマンスが良い(Syn.による82.84%、Flan-T5を使用したog.では81.12%)。
命令チューニングを導入すると、Flan-T5による合成データでは84.54%、元のデータでは81.49%のパフォーマンスが向上する。
合成データセットを元のデータセットと比較した包括的な分析により、合成データセットはデータセットの複雑さと多様性の類似または高いレベルを示すことが明らかになった。
さらに、合成データセットは、元のデータセットと密接に一致するバイアスレベルを表示する。
最後に、私たちの合成スーパーグルーデータセットで事前調整すると、t5-3bはopenllmのリーダーボード上で印象的な結果をもたらし、セルフインストラクションデータセットでトレーニングされたモデルを4.14%上回ります。
TarGENが品質データ生成に役立ち、複雑なベンチマークを作成するための人間の努力を減らすことができることを願っています。
関連論文リスト
- Improving Text Embeddings with Large Language Models [63.503320030117145]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
プロプライエタリなLLMを利用して、100近い言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成します。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Bridging the Gap: Enhancing the Utility of Synthetic Data via
Post-Processing Techniques [7.967995669387532]
生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして登場した。
本稿では,合成データセットの品質と多様性を向上させるために,新しい3つのポストプロセッシング手法を提案する。
Gap Filler(GaFi)は、Fashion-MNIST、CIFAR-10、CIFAR-100データセットにおいて、実精度スコアとのギャップを2.03%、1.78%、および3.99%に効果的に減少させることを示した。
論文 参考訳(メタデータ) (2023-05-17T10:50:38Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and
the Case of Information Extraction [28.51694365908817]
本研究は,大規模言語モデルでは直接解けないタスクに対しても,有用なデータを合成的に生成できることを示唆する。
我々は、1.8Mのデータポイントのデータセットを合成的に生成し、人間の評価において既存のデータセットと比較して優れた品質を確立する。
論文 参考訳(メタデータ) (2023-03-07T18:48:55Z) - ProGen: Progressive Zero-shot Dataset Generation via In-context Feedback [21.168991554983815]
本稿では,プログレッシブなゼロショットデータセット生成フレームワークであるProGenを提案する。
ProGenは、1%の合成データセットサイズで、オンパーまたは優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-22T02:07:10Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - On the use of automatically generated synthetic image datasets for
benchmarking face recognition [2.0196229393131726]
GAN(Generative Adversarial Networks)の最近の進歩は、実際のデータセットを合成データセットで置き換える経路を提供する。
現実的な顔画像を合成するためのGAN(Generative Adversarial Networks)の最近の進歩は、実際のデータセットを合成データセットで置き換える経路を提供する。
合成データセットのベンチマーク結果は、良い置換であり、多くの場合、実際のデータセットのベンチマークと同様のエラー率とシステムランキングを提供する。
論文 参考訳(メタデータ) (2021-06-08T09:54:02Z) - Semi-synthesis: A fast way to produce effective datasets for stereo
matching [16.602343511350252]
現実に近いテクスチャレンダリングは、ステレオマッチングのパフォーマンスを高める重要な要素です。
実物に近いテクスチャーで大量のデータを合成する効果的かつ高速な方法である半合成法を提案します。
実際のデータセットのさらなる微調整により、MiddleburyのSOTAパフォーマンスとKITTIおよびETH3Dデータセットの競争結果も達成します。
論文 参考訳(メタデータ) (2021-01-26T14:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。