論文の概要: An experimental study on Synthetic Tabular Data Evaluation
- arxiv url: http://arxiv.org/abs/2211.10760v1
- Date: Sat, 19 Nov 2022 18:18:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 21:43:06.952846
- Title: An experimental study on Synthetic Tabular Data Evaluation
- Title(参考訳): 合成表データ評価に関する実験的研究
- Authors: Javier Marin
- Abstract要約: 文献で最もよく使われているグローバルメトリクスを評価した。
本稿では,データのトポロジカルシグネチャ解析に基づく新しい手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we present the findings of various methodologies for measuring
the similarity of synthetic data generated from tabular data samples. We
particularly apply our research to the case where the synthetic data has many
more samples than the real data. This task has a special complexity: validating
the reliability of this synthetically generated data with a much higher number
of samples than the original. We evaluated the most commonly used global
metrics found in the literature. We introduced a novel approach based on the
data's topological signature analysis. Topological data analysis has several
advantages in addressing this latter challenge. The study of qualitative
geometric information focuses on geometric properties while neglecting
quantitative distance function values. This is especially useful with
high-dimensional synthetic data where the sample size has been significantly
increased. It is comparable to introducing new data points into the data space
within the limits set by the original data. Then, in large synthetic data
spaces, points will be much more concentrated than in the original space, and
their analysis will become much more sensitive to both the metrics used and
noise. Instead, the concept of "closeness" between points is used for
qualitative geometric information. Finally, we suggest an approach based on
data Eigen vectors for evaluating the level of noise in synthetic data. This
approach can also be used to assess the similarity of original and synthetic
data.
- Abstract(参考訳): 本稿では,表データから生成された合成データの類似性を測定するための様々な手法について述べる。
特に本研究は,合成データが実データよりも多くのサンプルを持つ場合に適用する。
このタスクには特別な複雑さがあり、この合成されたデータの信頼性を元のデータよりもはるかに多くのサンプルで検証する。
文献に見られる最も一般的なグローバル指標を評価した。
我々は,データの位相的シグネチャ解析に基づく新しい手法を導入した。
トポロジカルデータ分析は後者の課題に対処する上でいくつかの利点がある。
定性的幾何情報の研究は、量的距離関数値を無視しながら幾何学的性質に焦点を当てている。
これは試料サイズが著しく増大した高次元合成データに特に有用である。
これは、元のデータによって設定された制限内でデータ空間に新しいデータポイントを導入するのに匹敵する。
そして、大規模な合成データ空間では、ポイントは元の空間よりもはるかに集中し、それらの分析は使用されるメトリクスとノイズの両方にはるかに敏感になる。
代わりに、点間の「近さ」の概念は定性的幾何学的情報に使用される。
最後に,合成データのノイズレベルを評価するために,データ固有ベクトルに基づく手法を提案する。
このアプローチは、オリジナルデータと合成データの類似性を評価するためにも使用できる。
関連論文リスト
- Refereeing the Referees: Evaluating Two-Sample Tests for Validating Generators in Precision Sciences [0.0]
1次元テストは、他の多変量メトリクスに匹敵する感度のレベルを提供するが、計算コストは著しく低い。
この方法論は、モデル比較のための効率的で標準化されたツールを提供し、より高度なテストのベンチマークとして機能する。
論文 参考訳(メタデータ) (2024-09-24T13:58:46Z) - Diffusion posterior sampling for simulation-based inference in tall data settings [53.17563688225137]
シミュレーションベース推論(SBI)は、入力パラメータを所定の観測に関連付ける後部分布を近似することができる。
本研究では、モデルのパラメータをより正確に推測するために、複数の観測値が利用できる、背の高いデータ拡張について考察する。
提案手法を,最近提案した各種数値実験の競合手法と比較し,数値安定性と計算コストの観点から,その優位性を実証した。
論文 参考訳(メタデータ) (2024-04-11T09:23:36Z) - The Real Deal Behind the Artificial Appeal: Inferential Utility of Tabular Synthetic Data [40.165159490379146]
評価値が不偏であっても, 偽陽性の発見率(タイプ1の誤り)は不可避的に高いことが示唆された。
以前提案された補正係数が使用されているにもかかわらず、この問題は深層生成モデルに対して持続する。
論文 参考訳(メタデータ) (2023-12-13T02:04:41Z) - Mean Estimation with User-level Privacy under Data Heterogeneity [54.07947274508013]
異なるユーザーは、非常に多くの異なるデータポイントを持っているかもしれない。
すべてのユーザが同じディストリビューションからサンプルを採取していると仮定することはできない。
本研究では,データの分布と量の両方でユーザデータが異なる異質なユーザデータの単純なモデルを提案する。
論文 参考訳(メタデータ) (2023-07-28T23:02:39Z) - Comparing the Utility and Disclosure Risk of Synthetic Data with Samples
of Microdata [0.6445605125467572]
データの実用性と開示リスクの計測方法に関するコンセンサスはない。
ユーティリティと関連するリスクが明確に理解されている合成国勢調査マイクロデータを作成する能力は、よりタイムリーで広い範囲のマイクロデータへのアクセスが可能になることを意味している。
本報告では, 合成データの有用性と開示リスクを, 異なるサンプル分画の原データのサンプルと比較し, 評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-07-02T20:38:29Z) - A Kernelised Stein Statistic for Assessing Implicit Generative Models [10.616967871198689]
本稿では,合成データ生成装置の品質を評価するための基本手法を提案する。
合成データ生成装置からのサンプルサイズは所望の大きさで、生成装置がエミュレートすることを目的とした観測データのサイズは固定される。
論文 参考訳(メタデータ) (2022-05-31T23:40:21Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - The UU-test for Statistical Modeling of Unimodal Data [0.20305676256390928]
一次元データセットの一様性を決定するUUテスト(Unimodal Uniform test)手法を提案する。
このアプローチのユニークな特徴は、一様性の場合、一様混合モデルという形でデータの統計モデルも提供することである。
論文 参考訳(メタデータ) (2020-08-28T08:34:28Z) - Compressing Large Sample Data for Discriminant Analysis [78.12073412066698]
判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。
線形および二次判別分析のためのトレーニングサンプル数を削減するための新しい圧縮手法を提案する。
論文 参考訳(メタデータ) (2020-05-08T05:09:08Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。