論文の概要: Preserving correlations: A statistical method for generating synthetic
data
- arxiv url: http://arxiv.org/abs/2403.01471v1
- Date: Sun, 3 Mar 2024 10:35:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 21:16:47.090287
- Title: Preserving correlations: A statistical method for generating synthetic
data
- Title(参考訳): 相関を保存する:合成データを生成する統計的方法
- Authors: Nicklas J\"averg{\aa}rd, Rainey Lyons, Adrian Muntean and Jonas
Forsman
- Abstract要約: 本稿では,統計的に代表される合成データを生成する手法を提案する。
主なゴールは、元のデータセットに存在する特徴の相関関係を合成データセットで維持できるようにすることである。
本稿では,本アルゴリズムを原データセットの解析と合成データ点の生成に用いたアルゴリズムについて詳述する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a method to generate statistically representative synthetic data.
The main goal is to be able to maintain in the synthetic dataset the
correlations of the features present in the original one, while offering a
comfortable privacy level that can be eventually tailored on specific customer
demands.
We describe in detail our algorithm used both for the analysis of the
original dataset and for the generation of the synthetic data points. The
approach is tested using a large energy-related dataset. We obtain good results
both qualitatively (e.g. via vizualizing correlation maps) and quantitatively
(in terms of suitable $\ell^1$-type error norms used as evaluation metrics).
The proposed methodology is general in the sense that it does not rely on the
used test dataset. We expect it to be applicable in a much broader context than
indicated here.
- Abstract(参考訳): 統計的に代表される合成データを生成する手法を提案する。
主な目標は、元のデータセットにある機能の相関関係を合成データセットで維持し、適切なプライバシーレベルを提供し、最終的には特定の顧客の要求に合わせて調整できるようにすることだ。
本稿では,本アルゴリズムを原データセットの解析と合成データ点の生成に用いたアルゴリズムについて詳述する。
このアプローチは、大きなエネルギー関連データセットを使ってテストされる。
評価指標として使われる$\ell^1$型エラーノルムを用いて、定性的に(例えば相関写像のビズアル化)も量的にも良い結果が得られる。
提案手法は, 使用済みテストデータセットに依存しないという意味で一般的である。
ここで示されるよりもはるかに広い文脈で適用できると期待しています。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Personalized Federated Learning via Active Sampling [50.456464838807115]
本稿では,類似した(あるいは関連する)データジェネレータを逐次同定する手法を提案する。
本手法は,局所的なデータセットを用いて勾配ステップの効果を評価することにより,データ生成の関連性を評価する。
データ生成器が提供する局所的データセットを用いて仮説を更新するために、勾配ステップの適切な一般化により、この手法を非パラメトリックモデルに拡張する。
論文 参考訳(メタデータ) (2024-09-03T17:12:21Z) - Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - A Closer Look at Deep Learning on Tabular Data [52.50778536274327]
タブラルデータは、機械学習の様々な領域で広く使われている。
Deep Neural Network(DNN)ベースの手法は、ツリーベースに匹敵する有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-07-01T04:24:07Z) - Estimation of conditional average treatment effects on distributed confidential data [6.798254568821052]
条件平均処理効果(CATE)は、複数のパーティに分散したデータが集中できる場合、高精度に推定できる。
機密やプライバシー上の懸念から、このようなデータを集約することは困難である。
我々は、分散データから構築されたプライバシー保護融合データからCATEモデルを推定する手法である二重機械学習(Double Machine Learning)を提案する。
論文 参考訳(メタデータ) (2024-02-05T02:17:21Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - The UU-test for Statistical Modeling of Unimodal Data [0.20305676256390928]
一次元データセットの一様性を決定するUUテスト(Unimodal Uniform test)手法を提案する。
このアプローチのユニークな特徴は、一様性の場合、一様混合モデルという形でデータの統計モデルも提供することである。
論文 参考訳(メタデータ) (2020-08-28T08:34:28Z) - Tell Me Something I Don't Know: Randomization Strategies for Iterative
Data Mining [0.6100370338020054]
我々は、以前に発見されたパターンやモデルを考慮に入れられるように、データのランダム化の問題を考える。
本稿では,以前に発見されたパターンやモデルを考慮に入れたデータランダム化の問題について考察する。
論文 参考訳(メタデータ) (2020-06-16T19:20:50Z) - Statistical inference in massive datasets by empirical likelihood [1.6887485428725042]
本稿では,大規模データセットに対する新しい統計的推論手法を提案する。
本手法は分割・対数法と経験的可能性を組み合わせることで, 極めて単純かつ効率的である。
論文 参考訳(メタデータ) (2020-04-18T10:18:07Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - Adaptive Discrete Smoothing for High-Dimensional and Nonlinear Panel
Data [4.550919471480445]
我々は高次元および非線形パネルデータモデルのためのデータ駆動平滑化手法を開発した。
重みはデータ駆動方式で決定され、対応する関数間の類似性に依存する。
我々は,推定器を用いて予測を大幅に改善できることを示すシミュレーション研究を行った。
論文 参考訳(メタデータ) (2019-12-30T09:50:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。