論文の概要: Utility Theory of Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2305.10015v2
- Date: Tue, 12 Mar 2024 07:26:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 02:13:49.551813
- Title: Utility Theory of Synthetic Data Generation
- Title(参考訳): 合成データ生成の実用性理論
- Authors: Shirong Xu and Will Wei Sun and Guang Cheng
- Abstract要約: 本稿では,統計的学習フレームワークにおける実用理論の確立により,実践と理論のギャップを埋める。
合成データに基づいてトレーニングされたモデルの一般化とランキングの2つのユーティリティメトリクスを考慮に入れている。
- 参考スコア(独自算出の注目度): 14.061357975073319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data algorithms are widely employed in industries to generate
artificial data for downstream learning tasks. While existing research
primarily focuses on empirically evaluating utility of synthetic data, its
theoretical understanding is largely lacking. This paper bridges the
practice-theory gap by establishing relevant utility theory in a statistical
learning framework. It considers two utility metrics: generalization and
ranking of models trained on synthetic data. The former is defined as the
generalization difference between models trained on synthetic and on real data.
By deriving analytical bounds for this utility metric, we demonstrate that the
synthetic feature distribution does not need to be similar as that of real data
for ensuring comparable generalization of synthetic models, provided proper
model specifications in downstream learning tasks. The latter utility metric
studies the relative performance of models trained on synthetic data. In
particular, we discover that the distribution of synthetic data is not
necessarily similar as the real one to ensure consistent model comparison.
Interestingly, consistent model comparison is still achievable even when
synthetic responses are not well generated, as long as downstream models are
separable by a generalization gap. Finally, extensive experiments on
non-parametric models and deep neural networks have been conducted to validate
these theoretical findings.
- Abstract(参考訳): 合成データアルゴリズムは下流学習タスクのための人工データを生成する産業で広く利用されている。
既存の研究は主に合成データの実用性を実証的に評価することに焦点を当てているが、その理論的理解はほとんど欠けている。
本稿では,統計的学習フレームワークにおける実用理論の確立により,実践と理論のギャップを埋める。
合成データに基づいてトレーニングされたモデルの一般化とランキングの2つのユーティリティメトリクスを考える。
前者は、合成と実データで訓練されたモデル間の一般化差として定義される。
この実用的メトリクスの解析的境界を導出することにより、合成特徴分布は、下流学習タスクにおいて適切なモデル仕様を提供する合成モデルの同等な一般化を保証するために、実データと類似する必要はないことを実証する。
後者のユーティリティメトリックは、合成データで訓練されたモデルの相対的性能を研究する。
特に,合成データの分布が実データと必ずしも類似しているとは限らないことを見出し,一貫性のあるモデル比較を行う。
興味深いことに、合成応答が十分に生成されていない場合でも、一般化ギャップによって下流モデルが分離できる限り、一貫性のあるモデル比較が達成可能である。
最後に、これらの理論的発見を検証するために、非パラメトリックモデルとディープニューラルネットワークに関する広範な実験が行われた。
関連論文リスト
- Towards Theoretical Understandings of Self-Consuming Generative Models [60.98692028151328]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,この学習規則が将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
我々は拡散モデルに一般結果を特化し、自己消費ループ内での最適な早期停止の有効性などの微妙な洞察を提供する。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - A Bias-Variance Decomposition for Ensembles over Multiple Synthetic
Datasets [4.777272940677689]
最近の研究は、教師あり学習のための複数の合成データセットを生成する利点を強調している。
これらの利点は明らかな実証的な支持を持っているが、理論的な理解は今のところ非常に軽い。
複数の合成データセットを使用するいくつかの設定に対して、バイアス分散分解を導出することで理論的理解を高めることを目指す。
論文 参考訳(メタデータ) (2024-02-06T13:20:46Z) - Boosting Data Analytics With Synthetic Volume Expansion [3.568650932986342]
本稿では,合成データに対する統計的手法の有効性と,合成データのプライバシーリスクについて考察する。
この枠組みにおける重要な発見は、合成データに対する統計的手法の誤差率は、より多くの合成データを追加することで減少するが、最終的には上昇または安定化する可能性があることを明らかにする世代効果である。
論文 参考訳(メタデータ) (2023-10-27T01:57:27Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - On the Stability of Iterative Retraining of Generative Models on their
own Data [56.153542044045224]
生成モデルの訓練がデータセット(実データと合成データの混合データ)の安定性に及ぼす影響について検討した。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は,CIFAR10およびFFHQ上の正規化フローと最先端拡散モデルの反復的訓練により,合成画像と自然画像の両方に関する理論を実証的に検証した。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - A Scaling Law for Synthetic-to-Real Transfer: A Measure of Pre-Training [52.93808218720784]
合成から現実への変換学習は,実タスクのための合成画像と接地真実アノテーションを用いた事前学習を行うフレームワークである。
合成画像はデータの不足を克服するが、事前訓練されたモデルで微調整性能がどのようにスケールするかは定かではない。
我々は、合成事前学習データの様々なタスク、モデル、複雑さにおける学習曲線を一貫して記述する、単純で一般的なスケーリング法則を観察する。
論文 参考訳(メタデータ) (2021-08-25T02:29:28Z) - Simple Imputation Rules for Prediction with Missing Data: Contrasting
Theoretical Guarantees with Empirical Performance [7.642646077340124]
実際のデータセットでは、データの欠落が一般的な問題である。
本稿では, 理論的, 実証的証拠を対比して, 即効性パイプラインの性能について検討する。
論文 参考訳(メタデータ) (2021-04-07T14:45:14Z) - Foundations of Bayesian Learning from Synthetic Data [1.6249267147413522]
我々はベイズパラダイムを用いて、合成データから学習する際のモデルパラメータの更新を特徴付ける。
ベイジアン・アップデートの最近の成果は、決定理論に基づく新しい、堅牢な合成学習のアプローチを支持している。
論文 参考訳(メタデータ) (2020-11-16T21:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。