論文の概要: Generative Data Refinement: Just Ask for Better Data
- arxiv url: http://arxiv.org/abs/2509.08653v1
- Date: Wed, 10 Sep 2025 14:49:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.461456
- Title: Generative Data Refinement: Just Ask for Better Data
- Title(参考訳): 生成データリファインメント: より良いデータを求めるだけ
- Authors: Minqi Jiang, João G. M. Araújo, Will Ellsworth, Sian Gooding, Edward Grefenstette,
- Abstract要約: トレーニングデータセットは、新たなデータがWeb上でインデックスされるレートよりも速く成長する。
公開インデックス化されていないユーザ生成コンテンツとして、さらに多くのデータが存在しているが、そのようなデータの導入にはかなりのリスクが伴う。
我々は、事前訓練された生成モデルを使用して、望ましくないコンテンツを持つデータセットを洗練されたデータセットに変換するためのフレームワーク、生成データ精細化(GDR)を紹介する。
- 参考スコア(独自算出の注目度): 19.774236070314963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For a fixed parameter size, the capabilities of large models are primarily determined by the quality and quantity of its training data. Consequently, training datasets now grow faster than the rate at which new data is indexed on the web, leading to projected data exhaustion over the next decade. Much more data exists as user-generated content that is not publicly indexed, but incorporating such data comes with considerable risks, such as leaking private information and other undesirable content. We introduce a framework, Generative Data Refinement (GDR), for using pretrained generative models to transform a dataset with undesirable content into a refined dataset that is more suitable for training. Our experiments show that GDR can outperform industry-grade solutions for dataset anonymization, as well as enable direct detoxification of highly unsafe datasets. Moreover, we show that by generating synthetic data that is conditioned on each example in the real dataset, GDR's refined outputs naturally match the diversity of web scale datasets, and thereby avoid the often challenging task of generating diverse synthetic data via model prompting. The simplicity and effectiveness of GDR make it a powerful tool for scaling up the total stock of training data for frontier models.
- Abstract(参考訳): 固定パラメータサイズの場合、大きなモデルの能力はトレーニングデータの品質と量によって決定される。
その結果、トレーニングデータセットは、Web上で新しいデータがインデックスされる速度よりも速く成長し、次の10年間で予測されたデータの枯渇につながった。
公開インデックス化されていないユーザ生成コンテンツとして、さらに多くのデータが存在しているが、そのようなデータを統合すると、プライベート情報やその他の望ましくないコンテンツが漏洩するなど、かなりのリスクが伴う。
我々は、事前学習された生成モデルを使用して、望ましくないコンテンツを持つデータセットを、より訓練に適した洗練されたデータセットに変換するためのフレームワーク、生成データ精細化(GDR)を紹介する。
我々の実験は、GDRがデータセット匿名化の業界グレードのソリューションより優れていることを示し、高度に安全でないデータセットの直接デトックス化を可能にしている。
さらに、実データセットの各例に条件付き合成データを生成することにより、GDRの洗練された出力はWebスケールデータセットの多様性と自然に一致し、モデルプロンプトによる多様な合成データを生成するという課題を避けることができることを示す。
GDRの単純さと有効性により、フロンティアモデルのトレーニングデータの総在庫をスケールアップするための強力なツールとなる。
関連論文リスト
- DataMIL: Selecting Data for Robot Imitation Learning with Datamodels [77.48472034791213]
データモデルパラダイムに基づいて構築されたポリシー駆動型データ選択フレームワークであるDataMILを紹介する。
品質の概念を使ってデータをフィルタリングする標準的なプラクティスとは異なり、DataMILはタスクの成功のためにデータ選択を直接最適化する。
我々は60以上のシミュレーションと実世界の操作タスクのスイートに対して,我々のアプローチを検証する。
論文 参考訳(メタデータ) (2025-05-14T17:55:10Z) - DataGen: Unified Synthetic Dataset Generation via Large Language Models [88.16197692794707]
DataGenは、多様な、正確で、高度に制御可能なデータセットを生成するように設計された包括的なフレームワークである。
データ多様性を強化するため、DataGenは属性誘導生成モジュールとグループチェック機能を備えている。
大規模な実験は、DataGenによって生成されたデータの優れた品質を示す。
論文 参考訳(メタデータ) (2024-06-27T07:56:44Z) - MALLM-GAN: Multi-Agent Large Language Model as Generative Adversarial Network for Synthesizing Tabular Data [10.217822818544475]
大規模言語モデル(LLM)を用いた合成(語彙)データを生成するフレームワークを提案する。
提案手法は, サンプルサイズが小さい一般的なシナリオにおいて, 合成データ生成の品質を著しく向上させる。
以上の結果から,本モデルは下流タスクにおける高品質な合成データを生成する上で,実際のデータのプライバシを維持しつつ,いくつかの最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-06-15T06:26:17Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Multi-Resolution Diffusion for Privacy-Sensitive Recommender Systems [2.812395851874055]
Score-based Diffusion Recommendation Module (SDRM)を導入し、高精度なレコメンデータシステムのトレーニングに必要な実世界のデータセットの複雑なパターンをキャプチャする。
SDRMは、ユーザのプライバシを保護するために既存のデータセットを置き換える合成データを生成することができる。
提案手法は,Recall@kで平均4.30%,NDCG@kで平均4.65%向上した。
論文 参考訳(メタデータ) (2023-11-06T19:52:55Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。