論文の概要: Evaluating Synthetically Generated Data from Small Sample Sizes: An Experimental Study
- arxiv url: http://arxiv.org/abs/2211.10760v4
- Date: Mon, 11 Nov 2024 11:04:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:05:56.175882
- Title: Evaluating Synthetically Generated Data from Small Sample Sizes: An Experimental Study
- Title(参考訳): 小型試料からの合成データの評価 : 実験的検討
- Authors: Javier Marin,
- Abstract要約: 我々は、仮説テストに幾何、トポロジ、頑健な統計の組み合わせを用いて、生成されたデータの「妥当性」を評価する。
また,この結果と,大規模なサンプルサイズデータについて文献で記述した卓越したグローバルな測定方法とを対比した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This work proposes a method to evaluate the similarity between low-sample tabular data and synthetically generated data with a larger number of samples than the original. The technique is known to as data augmentation. However, significance values derived from non-parametric tests are questionable when the sample size is limited. Our approach uses a combination of geometry, topology, and robust statistics for hypothesis testing to evaluate the "validity" of generated data. We additionally contrast the findings with prominent global metric practices described in the literature for large sample size data.
- Abstract(参考訳): 本研究は, サンプル数の多い低サンプル表データと合成データとの類似性を評価する手法を提案する。
この技術はデータ拡張として知られている。
しかし, サンプルサイズが制限された場合には, 非パラメトリック試験から得られた有意値が疑問視される。
提案手法では, 仮説検定のための幾何, トポロジ, 頑健な統計の組み合わせを用いて, 生成データの「妥当性」を評価する。
また,この結果と,大規模なサンプルサイズデータについて文献で記述した卓越したグローバルな測定方法とを対比した。
関連論文リスト
- Refereeing the Referees: Evaluating Two-Sample Tests for Validating Generators in Precision Sciences [0.0]
1次元テストは、他の多変量メトリクスに匹敵する感度のレベルを提供するが、計算コストは著しく低い。
この方法論は、モデル比較のための効率的で標準化されたツールを提供し、より高度なテストのベンチマークとして機能する。
論文 参考訳(メタデータ) (2024-09-24T13:58:46Z) - Diffusion posterior sampling for simulation-based inference in tall data settings [53.17563688225137]
シミュレーションベース推論(SBI)は、入力パラメータを所定の観測に関連付ける後部分布を近似することができる。
本研究では、モデルのパラメータをより正確に推測するために、複数の観測値が利用できる、背の高いデータ拡張について考察する。
提案手法を,最近提案した各種数値実験の競合手法と比較し,数値安定性と計算コストの観点から,その優位性を実証した。
論文 参考訳(メタデータ) (2024-04-11T09:23:36Z) - The Real Deal Behind the Artificial Appeal: Inferential Utility of Tabular Synthetic Data [40.165159490379146]
評価値が不偏であっても, 偽陽性の発見率(タイプ1の誤り)は不可避的に高いことが示唆された。
以前提案された補正係数が使用されているにもかかわらず、この問題は深層生成モデルに対して持続する。
論文 参考訳(メタデータ) (2023-12-13T02:04:41Z) - Mean Estimation with User-level Privacy under Data Heterogeneity [54.07947274508013]
異なるユーザーは、非常に多くの異なるデータポイントを持っているかもしれない。
すべてのユーザが同じディストリビューションからサンプルを採取していると仮定することはできない。
本研究では,データの分布と量の両方でユーザデータが異なる異質なユーザデータの単純なモデルを提案する。
論文 参考訳(メタデータ) (2023-07-28T23:02:39Z) - Comparing the Utility and Disclosure Risk of Synthetic Data with Samples
of Microdata [0.6445605125467572]
データの実用性と開示リスクの計測方法に関するコンセンサスはない。
ユーティリティと関連するリスクが明確に理解されている合成国勢調査マイクロデータを作成する能力は、よりタイムリーで広い範囲のマイクロデータへのアクセスが可能になることを意味している。
本報告では, 合成データの有用性と開示リスクを, 異なるサンプル分画の原データのサンプルと比較し, 評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-07-02T20:38:29Z) - A Kernelised Stein Statistic for Assessing Implicit Generative Models [10.616967871198689]
本稿では,合成データ生成装置の品質を評価するための基本手法を提案する。
合成データ生成装置からのサンプルサイズは所望の大きさで、生成装置がエミュレートすることを目的とした観測データのサイズは固定される。
論文 参考訳(メタデータ) (2022-05-31T23:40:21Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - The UU-test for Statistical Modeling of Unimodal Data [0.20305676256390928]
一次元データセットの一様性を決定するUUテスト(Unimodal Uniform test)手法を提案する。
このアプローチのユニークな特徴は、一様性の場合、一様混合モデルという形でデータの統計モデルも提供することである。
論文 参考訳(メタデータ) (2020-08-28T08:34:28Z) - Compressing Large Sample Data for Discriminant Analysis [78.12073412066698]
判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。
線形および二次判別分析のためのトレーニングサンプル数を削減するための新しい圧縮手法を提案する。
論文 参考訳(メタデータ) (2020-05-08T05:09:08Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。