論文の概要: Preserving correlations: A statistical method for generating synthetic
data
- arxiv url: http://arxiv.org/abs/2403.01471v1
- Date: Sun, 3 Mar 2024 10:35:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 21:16:47.090287
- Title: Preserving correlations: A statistical method for generating synthetic
data
- Title(参考訳): 相関を保存する:合成データを生成する統計的方法
- Authors: Nicklas J\"averg{\aa}rd, Rainey Lyons, Adrian Muntean and Jonas
Forsman
- Abstract要約: 本稿では,統計的に代表される合成データを生成する手法を提案する。
主なゴールは、元のデータセットに存在する特徴の相関関係を合成データセットで維持できるようにすることである。
本稿では,本アルゴリズムを原データセットの解析と合成データ点の生成に用いたアルゴリズムについて詳述する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a method to generate statistically representative synthetic data.
The main goal is to be able to maintain in the synthetic dataset the
correlations of the features present in the original one, while offering a
comfortable privacy level that can be eventually tailored on specific customer
demands.
We describe in detail our algorithm used both for the analysis of the
original dataset and for the generation of the synthetic data points. The
approach is tested using a large energy-related dataset. We obtain good results
both qualitatively (e.g. via vizualizing correlation maps) and quantitatively
(in terms of suitable $\ell^1$-type error norms used as evaluation metrics).
The proposed methodology is general in the sense that it does not rely on the
used test dataset. We expect it to be applicable in a much broader context than
indicated here.
- Abstract(参考訳): 統計的に代表される合成データを生成する手法を提案する。
主な目標は、元のデータセットにある機能の相関関係を合成データセットで維持し、適切なプライバシーレベルを提供し、最終的には特定の顧客の要求に合わせて調整できるようにすることだ。
本稿では,本アルゴリズムを原データセットの解析と合成データ点の生成に用いたアルゴリズムについて詳述する。
このアプローチは、大きなエネルギー関連データセットを使ってテストされる。
評価指標として使われる$\ell^1$型エラーノルムを用いて、定性的に(例えば相関写像のビズアル化)も量的にも良い結果が得られる。
提案手法は, 使用済みテストデータセットに依存しないという意味で一般的である。
ここで示されるよりもはるかに広い文脈で適用できると期待しています。
関連論文リスト
- Reliability in Semantic Segmentation: Can We Use Synthetic Data? [52.5766244206855]
本稿では,セマンティックセグメンテーションにおける信頼性を評価するために,データの自動合成を行う最先端生成モデルに挑戦する。
安定拡散を微調整することにより、OODドメインやOODオブジェクトに塗布された合成データのゼロショット生成を行う。
我々は,合成データの性能と実OODデータの性能との間に高い相関関係を示し,妥当性を示す。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Post-processing Private Synthetic Data for Improving Utility on Selected
Measures [7.371282202708775]
本稿では,エンドユーザが選択した尺度に関して,合成データの有用性を向上するポストプロセッシング手法を提案する。
我々のアプローチは、複数のベンチマークデータセットと最先端の合成データ生成アルゴリズムにまたがる合成データの有用性を一貫して改善する。
論文 参考訳(メタデータ) (2023-05-24T19:49:50Z) - Utility Theory of Synthetic Data Generation [14.061357975073319]
本稿では,統計的学習フレームワークにおける実用理論の確立により,実践と理論のギャップを埋める。
合成データに基づいてトレーニングされたモデルの一般化とランキングの2つのユーティリティメトリクスを考慮に入れている。
論文 参考訳(メタデータ) (2023-05-17T07:49:16Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Synthetic data generation for a longitudinal cohort study -- Evaluation,
method extension and reproduction of published data analysis results [0.32593385688760446]
医療分野では、プライバシー上の懸念から個人レベルのデータへのアクセスは困難であることが多い。
有望な代替手段は、完全な合成データの生成である。
本研究では,最先端の合成データ生成手法を用いる。
論文 参考訳(メタデータ) (2023-05-12T13:13:55Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Utility Assessment of Synthetic Data Generation Methods [0.0]
完全合成データを生成する方法が,その実用性に相違があるかどうかを考察する。
ボード上の他の方法よりもパフォーマンスがよい方法がいくつかあります。
機械学習モデルのトレーニングに合成データを使用する場合、分類タスクに対して有望な結果が得られる。
論文 参考訳(メタデータ) (2022-11-23T11:09:52Z) - An experimental study on Synthetic Tabular Data Evaluation [0.0]
文献で最もよく使われているグローバルメトリクスを評価した。
本稿では,データのトポロジカルシグネチャ解析に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-19T18:18:52Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Partially Conditioned Generative Adversarial Networks [75.08725392017698]
Generative Adversarial Networks (GAN)は、実世界のトレーニングデータセットの基盤となる確率分布を暗黙的にモデル化することで、人工データセットを合成する。
条件付きGANとその変種の導入により、これらの手法はデータセット内の各サンプルで利用可能な補助情報に基づいて条件付きサンプルを生成するように拡張された。
本研究では,標準条件付きGANがそのようなタスクに適さないことを論じ,新たなAdversarial Networkアーキテクチャとトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-07-06T15:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。