論文の概要: Utility Theory of Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2305.10015v1
- Date: Wed, 17 May 2023 07:49:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 17:05:12.893092
- Title: Utility Theory of Synthetic Data Generation
- Title(参考訳): 合成データ生成の実用性理論
- Authors: Shirong Xu and Will Wei Sun and Guang Cheng
- Abstract要約: 本研究の目的は,一般計量に基づく合成アルゴリズムの有用性を定量的に評価することである。
この計量は、合成データセットと元のデータセットで訓練されたモデル間の一般化の絶対差として定義される。
また,合成データを用いたモデルの一般化性能のランキングが元のデータと一致するように,合成データアルゴリズムの十分な条件を確立する。
- 参考スコア(独自算出の注目度): 17.826241775212786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the utility of synthetic data is critical for measuring the
effectiveness and efficiency of synthetic algorithms. Existing results focus on
empirical evaluations of the utility of synthetic data, whereas the theoretical
understanding of how utility is affected by synthetic data algorithms remains
largely unexplored. This paper establishes utility theory from a statistical
perspective, aiming to quantitatively assess the utility of synthetic
algorithms based on a general metric. The metric is defined as the absolute
difference in generalization between models trained on synthetic and original
datasets. We establish analytical bounds for this utility metric to investigate
critical conditions for the metric to converge. An intriguing result is that
the synthetic feature distribution is not necessarily identical to the original
one for the convergence of the utility metric as long as the model
specification in downstream learning tasks is correct. Another important
utility metric is model comparison based on synthetic data. Specifically, we
establish sufficient conditions for synthetic data algorithms so that the
ranking of generalization performances of models trained on the synthetic data
is consistent with that from the original data. Finally, we conduct extensive
experiments using non-parametric models and deep neural networks to validate
our theoretical findings.
- Abstract(参考訳): 合成データの有用性を評価することは、合成アルゴリズムの有効性と効率を測定する上で重要である。
既存の結果は, 合成データの有用性の実証的評価に焦点が当てられているが, 合成データアルゴリズムによる有用性への影響に関する理論的理解は未解明のままである。
本稿では,一般計量に基づく合成アルゴリズムの有用性を定量的に評価することを目的として,統計的観点から実用理論を確立する。
この計量は、合成データセットと元のデータセットで訓練されたモデル間の一般化の絶対差として定義される。
我々は、この実用計量に対する解析的境界を確立し、計量が収束する臨界条件を調べる。
興味深い結果は、下流学習タスクのモデル仕様が正しい限り、合成特徴分布がユーティリティメトリックの収束のために元のものと必ずしも同一ではないことである。
もう一つの重要な実用指標は、合成データに基づくモデル比較である。
具体的には,合成データを用いて学習したモデルの一般化性能のランキングが元のデータと一致するように,合成データアルゴリズムの十分な条件を確立する。
最後に,非パラメトリックモデルとディープニューラルネットワークを用いた広範な実験を行い,理論的知見の検証を行った。
関連論文リスト
- Massively Annotated Datasets for Assessment of Synthetic and Real Data in Face Recognition [0.2775636978045794]
実データと合成データを用いて学習したモデルの性能のドリフトについて検討する。
属性集合上の実データと合成データセットの差について検討する。
興味深いことに、我々は実際のサンプルが合成分布を説明するのに十分であるにもかかわらず、その逆はもはや真実ではないことを検証した。
論文 参考訳(メタデータ) (2024-04-23T17:10:49Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [60.98692028151328]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,この学習規則が将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
我々は拡散モデルに一般結果を特化し、自己消費ループ内での最適な早期停止の有効性などの微妙な洞察を提供する。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - A Bias-Variance Decomposition for Ensembles over Multiple Synthetic
Datasets [4.777272940677689]
最近の研究は、教師あり学習のための複数の合成データセットを生成する利点を強調している。
これらの利点は明らかな実証的な支持を持っているが、理論的な理解は今のところ非常に軽い。
複数の合成データセットを使用するいくつかの設定に対して、バイアス分散分解を導出することで理論的理解を高めることを目指す。
論文 参考訳(メタデータ) (2024-02-06T13:20:46Z) - Boosting Data Analytics With Synthetic Volume Expansion [3.568650932986342]
本稿では,合成データに対する統計的手法の有効性と,合成データのプライバシーリスクについて考察する。
この枠組みにおける重要な発見は、合成データに対する統計的手法の誤差率は、より多くの合成データを追加することで減少するが、最終的には上昇または安定化する可能性があることを明らかにする世代効果である。
論文 参考訳(メタデータ) (2023-10-27T01:57:27Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - A Scaling Law for Synthetic-to-Real Transfer: A Measure of Pre-Training [52.93808218720784]
合成から現実への変換学習は,実タスクのための合成画像と接地真実アノテーションを用いた事前学習を行うフレームワークである。
合成画像はデータの不足を克服するが、事前訓練されたモデルで微調整性能がどのようにスケールするかは定かではない。
我々は、合成事前学習データの様々なタスク、モデル、複雑さにおける学習曲線を一貫して記述する、単純で一般的なスケーリング法則を観察する。
論文 参考訳(メタデータ) (2021-08-25T02:29:28Z) - Simple Imputation Rules for Prediction with Missing Data: Contrasting
Theoretical Guarantees with Empirical Performance [7.642646077340124]
実際のデータセットでは、データの欠落が一般的な問題である。
本稿では, 理論的, 実証的証拠を対比して, 即効性パイプラインの性能について検討する。
論文 参考訳(メタデータ) (2021-04-07T14:45:14Z) - Foundations of Bayesian Learning from Synthetic Data [1.6249267147413522]
我々はベイズパラダイムを用いて、合成データから学習する際のモデルパラメータの更新を特徴付ける。
ベイジアン・アップデートの最近の成果は、決定理論に基づく新しい、堅牢な合成学習のアプローチを支持している。
論文 参考訳(メタデータ) (2020-11-16T21:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。