論文の概要: Utility Theory of Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2305.10015v1
- Date: Wed, 17 May 2023 07:49:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 17:05:12.893092
- Title: Utility Theory of Synthetic Data Generation
- Title(参考訳): 合成データ生成の実用性理論
- Authors: Shirong Xu and Will Wei Sun and Guang Cheng
- Abstract要約: 本研究の目的は,一般計量に基づく合成アルゴリズムの有用性を定量的に評価することである。
この計量は、合成データセットと元のデータセットで訓練されたモデル間の一般化の絶対差として定義される。
また,合成データを用いたモデルの一般化性能のランキングが元のデータと一致するように,合成データアルゴリズムの十分な条件を確立する。
- 参考スコア(独自算出の注目度): 17.826241775212786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the utility of synthetic data is critical for measuring the
effectiveness and efficiency of synthetic algorithms. Existing results focus on
empirical evaluations of the utility of synthetic data, whereas the theoretical
understanding of how utility is affected by synthetic data algorithms remains
largely unexplored. This paper establishes utility theory from a statistical
perspective, aiming to quantitatively assess the utility of synthetic
algorithms based on a general metric. The metric is defined as the absolute
difference in generalization between models trained on synthetic and original
datasets. We establish analytical bounds for this utility metric to investigate
critical conditions for the metric to converge. An intriguing result is that
the synthetic feature distribution is not necessarily identical to the original
one for the convergence of the utility metric as long as the model
specification in downstream learning tasks is correct. Another important
utility metric is model comparison based on synthetic data. Specifically, we
establish sufficient conditions for synthetic data algorithms so that the
ranking of generalization performances of models trained on the synthetic data
is consistent with that from the original data. Finally, we conduct extensive
experiments using non-parametric models and deep neural networks to validate
our theoretical findings.
- Abstract(参考訳): 合成データの有用性を評価することは、合成アルゴリズムの有効性と効率を測定する上で重要である。
既存の結果は, 合成データの有用性の実証的評価に焦点が当てられているが, 合成データアルゴリズムによる有用性への影響に関する理論的理解は未解明のままである。
本稿では,一般計量に基づく合成アルゴリズムの有用性を定量的に評価することを目的として,統計的観点から実用理論を確立する。
この計量は、合成データセットと元のデータセットで訓練されたモデル間の一般化の絶対差として定義される。
我々は、この実用計量に対する解析的境界を確立し、計量が収束する臨界条件を調べる。
興味深い結果は、下流学習タスクのモデル仕様が正しい限り、合成特徴分布がユーティリティメトリックの収束のために元のものと必ずしも同一ではないことである。
もう一つの重要な実用指標は、合成データに基づくモデル比較である。
具体的には,合成データを用いて学習したモデルの一般化性能のランキングが元のデータと一致するように,合成データアルゴリズムの十分な条件を確立する。
最後に,非パラメトリックモデルとディープニューラルネットワークを用いた広範な実験を行い,理論的知見の検証を行った。
関連論文リスト
- Benchmarking the Fidelity and Utility of Synthetic Relational Data [1.024113475677323]
我々は、関係データ合成、共通ベンチマークデータセット、および合成データの忠実性と有用性を測定するためのアプローチに関する関連研究についてレビューする。
ベストプラクティスと、新しい堅牢な検出アプローチをベンチマークツールに組み合わせて、6つのメソッドを比較します。
実用面では、モデル予測性能と特徴量の両方において、実データと合成データの適度な相関が観察されるのが一般的である。
論文 参考訳(メタデータ) (2024-10-04T13:23:45Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - A Bias-Variance Decomposition for Ensembles over Multiple Synthetic Datasets [4.389150156866014]
最近の研究は、教師あり学習のための複数の合成データセットを生成する利点を強調している。
これらの利点は明らかな実証的な支持を持っているが、理論的な理解は今のところ非常に軽い。
複数の合成データセットを使用するいくつかの設定に対して、バイアス分散分解を導出することで理論的理解を高めることを目指す。
論文 参考訳(メタデータ) (2024-02-06T13:20:46Z) - The Real Deal Behind the Artificial Appeal: Inferential Utility of Tabular Synthetic Data [40.165159490379146]
評価値が不偏であっても, 偽陽性の発見率(タイプ1の誤り)は不可避的に高いことが示唆された。
以前提案された補正係数が使用されているにもかかわらず、この問題は深層生成モデルに対して持続する。
論文 参考訳(メタデータ) (2023-12-13T02:04:41Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - A Scaling Law for Synthetic-to-Real Transfer: A Measure of Pre-Training [52.93808218720784]
合成から現実への変換学習は,実タスクのための合成画像と接地真実アノテーションを用いた事前学習を行うフレームワークである。
合成画像はデータの不足を克服するが、事前訓練されたモデルで微調整性能がどのようにスケールするかは定かではない。
我々は、合成事前学習データの様々なタスク、モデル、複雑さにおける学習曲線を一貫して記述する、単純で一般的なスケーリング法則を観察する。
論文 参考訳(メタデータ) (2021-08-25T02:29:28Z) - Simple Imputation Rules for Prediction with Missing Data: Contrasting
Theoretical Guarantees with Empirical Performance [7.642646077340124]
実際のデータセットでは、データの欠落が一般的な問題である。
本稿では, 理論的, 実証的証拠を対比して, 即効性パイプラインの性能について検討する。
論文 参考訳(メタデータ) (2021-04-07T14:45:14Z) - Foundations of Bayesian Learning from Synthetic Data [1.6249267147413522]
我々はベイズパラダイムを用いて、合成データから学習する際のモデルパラメータの更新を特徴付ける。
ベイジアン・アップデートの最近の成果は、決定理論に基づく新しい、堅牢な合成学習のアプローチを支持している。
論文 参考訳(メタデータ) (2020-11-16T21:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。