論文の概要: Synthetic Tabular Data Validation: A Divergence-Based Approach
- arxiv url: http://arxiv.org/abs/2405.07822v1
- Date: Mon, 13 May 2024 15:07:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 13:15:58.827547
- Title: Synthetic Tabular Data Validation: A Divergence-Based Approach
- Title(参考訳): 合成語彙データ検証:ダイバージェンスに基づくアプローチ
- Authors: Patricia A. Apellániz, Ana Jiménez, Borja Arroyo Galende, Juan Parras, Santiago Zazo,
- Abstract要約: 分散は、データ分散間の相違を定量化する。
従来のアプローチでは、各特徴に対して独立して発散率を計算する。
本稿では,差分推定を用いて限界比較の限界を克服する手法を提案する。
- 参考スコア(独自算出の注目度): 8.062368743143388
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The ever-increasing use of generative models in various fields where tabular data is used highlights the need for robust and standardized validation metrics to assess the similarity between real and synthetic data. Current methods lack a unified framework and rely on diverse and often inconclusive statistical measures. Divergences, which quantify discrepancies between data distributions, offer a promising avenue for validation. However, traditional approaches calculate divergences independently for each feature due to the complexity of joint distribution modeling. This paper addresses this challenge by proposing a novel approach that uses divergence estimation to overcome the limitations of marginal comparisons. Our core contribution lies in applying a divergence estimator to build a validation metric considering the joint distribution of real and synthetic data. We leverage a probabilistic classifier to approximate the density ratio between datasets, allowing the capture of complex relationships. We specifically calculate two divergences: the well-known Kullback-Leibler (KL) divergence and the Jensen-Shannon (JS) divergence. KL divergence offers an established use in the field, while JS divergence is symmetric and bounded, providing a reliable metric. The efficacy of this approach is demonstrated through a series of experiments with varying distribution complexities. The initial phase involves comparing estimated divergences with analytical solutions for simple distributions, setting a benchmark for accuracy. Finally, we validate our method on a real-world dataset and its corresponding synthetic counterpart, showcasing its effectiveness in practical applications. This research offers a significant contribution with applicability beyond tabular data and the potential to improve synthetic data validation in various fields.
- Abstract(参考訳): 表データを使用するさまざまな分野における生成モデルの利用が増加し続けており、実際のデータと合成データの類似性を評価するための堅牢で標準化された検証指標の必要性が強調されている。
現在の手法には統一された枠組みが欠如しており、多様かつしばしば決定的でない統計測度に依存している。
データ分散間の相違を定量化するダイバージェンスは、バリデーションのための有望な道を提供する。
しかし、従来の手法は、結合分布モデリングの複雑さのため、各特徴に対して独立に発散を計算している。
本稿では,差分推定を用いて限界比較の限界を克服する手法を提案する。
我々の中核的な貢献は、実データと合成データの連成分布を考慮した検証指標を構築するために分散推定器を適用することである。
確率的分類器を用いてデータセット間の密度比を近似し、複雑な関係を捕捉する。
具体的には、KL(Kulback-Leibler)の発散とJS(Jensen-Shannon)の発散の2つの発散を計算する。
KL の発散はこの分野で確立された用途を提供し、JS の発散は対称で有界であり、信頼性のある計量を提供する。
このアプローチの有効性は、様々な分布の複雑さを持つ一連の実験によって実証される。
最初のフェーズでは、推定発散と単純な分布に対する解析解を比較し、精度のベンチマークを設定する。
最後に,実世界のデータセットとその対応する合成データを用いて,本手法の有効性を実証する。
本研究は, 表データを超える適用性や, 各種分野における合成データの妥当性向上に大きく貢献する。
関連論文リスト
- Towards a Unified Theory for Semiparametric Data Fusion with Individual-Level Data [1.0650780147044159]
本研究では,様々な独立した情報源からの個人レベルのデータを活用することで,滑らかな有限次元パラメータに関する推論を行うという目的に対処する。
近年の進歩により、異なるデータソースが結合対象分布の単一因数分解の条件分布の、おそらくは別個のサブセットと整合するシナリオを扱うことができる包括的理論が発展してきた。
我々は、上記の包括的理論を拡張し、対象分布の単一因数分解に対応しない条件分布に整合したソースからの個々のレベルデータの融合を可能にする。
論文 参考訳(メタデータ) (2024-09-16T04:10:44Z) - Kinetic Interacting Particle Langevin Monte Carlo [0.0]
本稿では,潜在変数モデルにおける統計的推論のために,アンダーダム付きランゲヴィンアルゴリズムの相互作用について紹介し,解析する。
本稿では,パラメータと潜伏変数の空間内で共同で進化する拡散過程を提案する。
統計モデルのパラメータを推定する実用的なアルゴリズムとして,この拡散について2つの明確な考察を行う。
論文 参考訳(メタデータ) (2024-07-08T09:52:46Z) - A Geometric Unification of Distributionally Robust Covariance Estimators: Shrinking the Spectrum by Inflating the Ambiguity Set [20.166217494056916]
制約的な仮定を課さずに共分散推定器を構築するための原理的手法を提案する。
頑健な推定器は効率的に計算可能で一貫したものであることを示す。
合成および実データに基づく数値実験により、我々の頑健な推定器は最先端の推定器と競合していることが示された。
論文 参考訳(メタデータ) (2024-05-30T15:01:18Z) - Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。
異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文 参考訳(メタデータ) (2024-04-24T09:04:36Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z) - Equivariance Discovery by Learned Parameter-Sharing [153.41877129746223]
データから解釈可能な等価性を発見する方法について検討する。
具体的には、モデルのパラメータ共有方式に対する最適化問題として、この発見プロセスを定式化する。
また,ガウスデータの手法を理論的に解析し,研究された発見スキームとオラクルスキームの間の平均2乗ギャップを限定する。
論文 参考訳(メタデータ) (2022-04-07T17:59:19Z) - A similarity-based Bayesian mixture-of-experts model [0.5156484100374058]
多変量回帰問題に対する新しい非パラメトリック混合実験モデルを提案する。
条件付きモデルを用いて、サンプル外入力の予測は、観測された各データポイントと類似性に基づいて行われる。
混合物のパラメータと距離測定値に基づいて後部推論を行う。
論文 参考訳(メタデータ) (2020-12-03T18:08:30Z) - Robust Correction of Sampling Bias Using Cumulative Distribution
Functions [19.551668880584973]
変数ドメインとバイアス付きデータセットは、トレーニングとターゲット分布の違いにつながる可能性がある。
これを緩和するための現在のアプローチは、しばしばトレーニングとターゲット確率密度関数の比率を推定することに依存する。
論文 参考訳(メタデータ) (2020-10-23T22:13:00Z) - Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。
堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。
異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文 参考訳(メタデータ) (2020-07-21T08:18:06Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。