Fugu-MT 論文翻訳(概要): Synthetic data, real errors: how (not) to publish and use synthetic data

論文の概要: Synthetic data, real errors: how (not) to publish and use synthetic data

arxiv url: http://arxiv.org/abs/2305.09235v2
Date: Sat, 8 Jul 2023 09:15:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-11 22:07:58.494392
Title: Synthetic data, real errors: how (not) to publish and use synthetic data
Title（参考訳）: 合成データ、実際のエラー:どのようにして合成データをパブリッシュして使うか
Authors: Boris van Breugel, Zhaozhi Qian, Mihaela van der Schaar
Abstract要約: 生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
参考スコア（独自算出の注目度）: 86.65594304109567
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generating synthetic data through generative models is gaining interest in the ML community and beyond, promising a future where datasets can be tailored to individual needs. Unfortunately, synthetic data is usually not perfect, resulting in potential errors in downstream tasks. In this work we explore how the generative process affects the downstream ML task. We show that the naive synthetic data approach -- using synthetic data as if it is real -- leads to downstream models and analyses that do not generalize well to real data. As a first step towards better ML in the synthetic data regime, we introduce Deep Generative Ensemble (DGE) -- a framework inspired by Deep Ensembles that aims to implicitly approximate the posterior distribution over the generative process model parameters. DGE improves downstream model training, evaluation, and uncertainty quantification, vastly outperforming the naive approach on average. The largest improvements are achieved for minority classes and low-density regions of the original data, for which the generative uncertainty is largest.
Abstract（参考訳）: 生成モデルによる合成データの生成は、MLコミュニティやそれ以上の関心を集めており、データセットを個々のニーズに合わせてカスタマイズできる未来を約束している。残念なことに、合成データは通常完璧ではないため、下流のタスクで潜在的なエラーが発生する。本研究では、生成プロセスが下流MLタスクにどのように影響するかを検討する。ナイーブな合成データアプローチ -- 合成データが本物であるかのように使用する -- は、実データにうまく一般化しない下流モデルと分析に繋がることを示している。合成データシステムにおけるmlの改善に向けた第一歩として、深層生成アンサンブル(dge)を紹介します。これは、生成過程モデルのパラメーターに対する後方分布を暗黙的に近似することを目的とした、深層アンサンブルに触発されたフレームワークです。 dgeは下流モデルのトレーニング、評価、不確実性定量化を改善し、平均的なナイーブアプローチを大きく上回っている。最も大きな改善は、原データのマイノリティクラスと低密度領域において達成され、生成的不確実性が最も大きい。

関連論文リスト

Synthline: A Product Line Approach for Synthetic Requirements Engineering Data Generation using Large Language Models [0.5156484100374059]
本稿では,大規模言語モデルを用いて合成要求工学(RE)データを生成する製品ライン(PL)アプローチであるSynthlineを紹介する。我々の分析によると、合成データセットは実際のデータよりも多様性が低いが、実行可能なトレーニングリソースとして機能するには十分である。以上の結果から, 合成データと実データを組み合わせることで, 大幅な性能向上が期待できる。
論文参考訳（メタデータ） (2025-05-06T07:57:16Z)
Less is More: Adaptive Coverage for Synthetic Training Data [20.136698279893857]
本研究では,最大カバレッジ問題に基づく新しいサンプリングアルゴリズムを導入し,合成されたデータセットから代表サブセットを選択する。この結果から,この文脈的にサンプリングされたサブセット上での分類器のトレーニングは,データセット全体のトレーニングよりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2025-04-20T06:45:16Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。 SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文参考訳（メタデータ） (2024-10-24T10:47:30Z)
Self-Improving Diffusion Models with Synthetic Data [12.597035060380001]
シンセティックデータを用いた自己IM拡散モデル(SIMS)は、拡散モデルのための新しい訓練概念である。 SIMSは自己合成データを使用して生成プロセス中に負のガイダンスを提供する。 MADを使わずに、自己生成合成データに対して反復的に訓練できる、最初の予防的生成AIアルゴリズムである。
論文参考訳（メタデータ） (2024-08-29T08:12:18Z)
Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文参考訳（メタデータ） (2024-06-25T10:49:56Z)
Self-Consuming Generative Models with Curated Data Provably Optimize Human Preferences [20.629333587044012]
本研究では,データキュレーションが生成モデルの反復的再学習に与える影響について検討する。報奨モデルに従ってデータをキュレートすると、反復的再訓練手順の期待報酬が最大になることを示す。
論文参考訳（メタデータ） (2024-06-12T21:28:28Z)
Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。このようなモデルは大きい傾向があり、訓練データの総量を必要とする。人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文参考訳（メタデータ） (2023-11-02T01:51:43Z)
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文参考訳（メタデータ） (2023-10-20T17:14:25Z)
Regularizing Neural Networks with Meta-Learning Generative Models [40.45689466486025]
メタ生成正則化(Meta Generative regularization, MGR)と呼ばれる新しい生成データ拡張戦略を提案する。 MGRは、例えばクロスエントロピーのような損失関数の代わりに、特徴抽出器の正則化項で合成サンプルを利用する。 6つのデータセットの実験では、MGRは特にデータセットが小さく、安定してベースラインを上回っている場合に有効であることが示された。
論文参考訳（メタデータ） (2023-07-26T01:47:49Z)
Copula Flows for Synthetic Data Generation [0.5801044612920815]
確率モデルを合成データ生成器として用いることを提案する。密度推定の手法として,シミュレーションと実データの両方をベンチマークした。
論文参考訳（メタデータ） (2021-01-03T10:06:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。