論文の概要: Preserving correlations: A statistical method for generating synthetic data
- arxiv url: http://arxiv.org/abs/2403.01471v2
- Date: Mon, 11 Nov 2024 12:01:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:03:14.886488
- Title: Preserving correlations: A statistical method for generating synthetic data
- Title(参考訳): 相関を保存する: 統計的に合成データを生成する方法
- Authors: Nicklas Jävergård, Rainey Lyons, Adrian Muntean, Jonas Forsman,
- Abstract要約: 与えられたデータセットから統計的に代表的な合成データを生成する手法を提案する。
本手法の主な目的は,生成したデータに対して,元のデータに存在する特徴相関を模倣することである。
統計的マップの構築と、このマップを用いて合成観測を生成する方法の両方において、我々のアルゴリズムを詳細に記述する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We propose a method to generate statistically representative synthetic data from a given dataset. The main goal of our method is for the created data set to mimic the between feature correlations present in the original data, while also offering a tunable parameter to influence the privacy level. In particular, our method constructs a statistical map by using the empirical conditional distributions between the features of the original dataset. We describe in detail our algorithms used both in the construction of a statistical map and how to use this map to generate synthetic observations. This approach is tested in three different ways: with a hand calculated example; a manufactured dataset; and a real world energy-related dataset of consumption/production of households in Madeira Island. We test our method's performance by comparing the datasets using the on Pearson correlation matrix. The proposed methodology is general in the sense that it does not rely on the used test dataset. We expect it to be applicable in a much broader context than indicated here.
- Abstract(参考訳): 与えられたデータセットから統計的に代表的な合成データを生成する手法を提案する。
本手法の主な目的は,プライバシレベルに影響を与えるための調整可能なパラメータを提供するとともに,元のデータに存在する特徴相関を模倣する生成データセットである。
特に,本手法は,元のデータセットの特徴間の経験的条件分布を用いて,統計的マップを構築する。
統計的マップの構築と、このマップを用いて合成観測を生成する方法の両方において、我々のアルゴリズムを詳細に記述する。
このアプローチは、手計算の例、製造されたデータセット、マデイラ島における世帯の消費・生産に関する実世界のエネルギー関連データセットの3つの異なる方法でテストされている。
Pearson相関行列を用いてデータセットを比較し,本手法の性能を検証した。
提案手法は, 使用済みテストデータセットに依存しないという意味で一般的である。
ここで示されるよりもはるかに広い文脈で適用できると期待しています。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Personalized Federated Learning via Active Sampling [50.456464838807115]
本稿では,類似した(あるいは関連する)データジェネレータを逐次同定する手法を提案する。
本手法は,局所的なデータセットを用いて勾配ステップの効果を評価することにより,データ生成の関連性を評価する。
データ生成器が提供する局所的データセットを用いて仮説を更新するために、勾配ステップの適切な一般化により、この手法を非パラメトリックモデルに拡張する。
論文 参考訳(メタデータ) (2024-09-03T17:12:21Z) - Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - A Closer Look at Deep Learning on Tabular Data [52.50778536274327]
タブラルデータは、機械学習の様々な領域で広く使われている。
Deep Neural Network(DNN)ベースの手法は、ツリーベースに匹敵する有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-07-01T04:24:07Z) - Estimation of conditional average treatment effects on distributed confidential data [6.798254568821052]
条件平均処理効果(CATE)は、複数のパーティに分散したデータが集中できる場合、高精度に推定できる。
機密やプライバシー上の懸念から、このようなデータを集約することは困難である。
我々は、分散データから構築されたプライバシー保護融合データからCATEモデルを推定する手法である二重機械学習(Double Machine Learning)を提案する。
論文 参考訳(メタデータ) (2024-02-05T02:17:21Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - The UU-test for Statistical Modeling of Unimodal Data [0.20305676256390928]
一次元データセットの一様性を決定するUUテスト(Unimodal Uniform test)手法を提案する。
このアプローチのユニークな特徴は、一様性の場合、一様混合モデルという形でデータの統計モデルも提供することである。
論文 参考訳(メタデータ) (2020-08-28T08:34:28Z) - Tell Me Something I Don't Know: Randomization Strategies for Iterative
Data Mining [0.6100370338020054]
我々は、以前に発見されたパターンやモデルを考慮に入れられるように、データのランダム化の問題を考える。
本稿では,以前に発見されたパターンやモデルを考慮に入れたデータランダム化の問題について考察する。
論文 参考訳(メタデータ) (2020-06-16T19:20:50Z) - Statistical inference in massive datasets by empirical likelihood [1.6887485428725042]
本稿では,大規模データセットに対する新しい統計的推論手法を提案する。
本手法は分割・対数法と経験的可能性を組み合わせることで, 極めて単純かつ効率的である。
論文 参考訳(メタデータ) (2020-04-18T10:18:07Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - Adaptive Discrete Smoothing for High-Dimensional and Nonlinear Panel
Data [4.550919471480445]
我々は高次元および非線形パネルデータモデルのためのデータ駆動平滑化手法を開発した。
重みはデータ駆動方式で決定され、対応する関数間の類似性に依存する。
我々は,推定器を用いて予測を大幅に改善できることを示すシミュレーション研究を行った。
論文 参考訳(メタデータ) (2019-12-30T09:50:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。