論文の概要: Generating Faithful Synthetic Data with Large Language Models: A Case
Study in Computational Social Science
- arxiv url: http://arxiv.org/abs/2305.15041v1
- Date: Wed, 24 May 2023 11:27:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 16:38:21.403852
- Title: Generating Faithful Synthetic Data with Large Language Models: A Case
Study in Computational Social Science
- Title(参考訳): 大規模言語モデルによる忠実な合成データの生成:計算社会科学を事例として
- Authors: Veniamin Veselovsky, Manoel Horta Ribeiro, Akhil Arora, Martin
Josifoski, Ashton Anderson, Robert West
- Abstract要約: 我々は、合成データ生成における広範囲な問題に取り組み、その生成分布は、研究者が関心を持つ実世界のデータ分布とは異なることが多い。
本研究では,合成データの忠実度を高めるための3つの戦略について検討する。
本稿では,特定のタスクに対して高忠実度合成データを生成する方法について提案する。
- 参考スコア(独自算出の注目度): 13.854807858791652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have democratized synthetic data generation,
which in turn has the potential to simplify and broaden a wide gamut of NLP
tasks. Here, we tackle a pervasive problem in synthetic data generation: its
generative distribution often differs from the distribution of real-world data
researchers care about (in other words, it is unfaithful). In a case study on
sarcasm detection, we study three strategies to increase the faithfulness of
synthetic data: grounding, filtering, and taxonomy-based generation. We
evaluate these strategies using the performance of classifiers trained with
generated synthetic data on real-world data. While all three strategies improve
the performance of classifiers, we find that grounding works best for the task
at hand. As synthetic data generation plays an ever-increasing role in NLP
research, we expect this work to be a stepping stone in improving its utility.
We conclude this paper with some recommendations on how to generate
high(er)-fidelity synthetic data for specific tasks.
- Abstract(参考訳): 大規模言語モデル(llm)は、合成データ生成を民主化し、nlpタスクの幅を広げ、単純化する可能性を秘めている。
ここでは、合成データ生成における幅広い問題に取り組み、その生成分布は、研究者が関心を持つ実世界のデータ分布とは異なることが多い(言い換えれば、それは偽りである)。
サーカズム検出に関するケーススタディでは, 接地, フィルタリング, 分類に基づく生成という合成データの忠実性を高めるための3つの戦略について検討した。
これらの戦略を,生成した合成データを用いて学習した分類器の性能を用いて評価する。
3つの戦略はいずれも分類器の性能を改善するが、手元にあるタスクに最適であることがわかった。
合成データ生成は、NLP研究において絶え間なく増加する役割を担っているため、我々はこの研究が実用性向上の足掛かりになることを期待している。
本稿では,特定のタスクに対して高い(er)忠実性を持つ合成データを生成する方法を提案する。
関連論文リスト
- Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance [16.047084318753377]
不均衡なデータと急激な相関は、機械学習とデータサイエンスにおける一般的な課題である。
過度に表現されていないクラスのインスタンス数を人工的に増加させるオーバーサンプリングは、これらの課題に対処するために広く採用されている。
我々は,大規模言語モデルの能力を活用して,少数グループを対象とした高品質な合成データを生成する,体系的なオーバーサンプリング手法であるOPALを紹介する。
論文 参考訳(メタデータ) (2024-06-05T21:24:26Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Synthetic Demographic Data Generation for Card Fraud Detection Using
GANs [4.651915393462367]
我々は、人口統計データ生成に使用されるDGGANと呼ばれるディープラーニングジェネレーティブ・アドバイサル・ネットワーク(GAN)を構築している。
本モデルでは,モデルトレーニング中にサンプルを生成し,クラス不均衡問題を克服することの重要性を見出した。
論文 参考訳(メタデータ) (2023-06-29T17:08:57Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。