論文の概要: GenSyn: A Multi-stage Framework for Generating Synthetic Microdata using
Macro Data Sources
- arxiv url: http://arxiv.org/abs/2212.05975v1
- Date: Thu, 8 Dec 2022 01:22:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 18:26:16.177084
- Title: GenSyn: A Multi-stage Framework for Generating Synthetic Microdata using
Macro Data Sources
- Title(参考訳): GenSyn: Macroデータソースを使用した合成マイクロデータ生成のための多段階フレームワーク
- Authors: Angeela Acharya, Siddhartha Sikdar, Sanmay Das, and Huzefa Rangwala
- Abstract要約: 人口を特徴付ける個人レベルのデータ(マイクロデータ)は多くの現実世界の問題を研究するのに不可欠である。
本研究では,高分解能データの抽出方法として合成データ生成について検討する。
- 参考スコア(独自算出の注目度): 21.32471030724983
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Individual-level data (microdata) that characterizes a population, is
essential for studying many real-world problems. However, acquiring such data
is not straightforward due to cost and privacy constraints, and access is often
limited to aggregated data (macro data) sources. In this study, we examine
synthetic data generation as a tool to extrapolate difficult-to-obtain
high-resolution data by combining information from multiple easier-to-obtain
lower-resolution data sources. In particular, we introduce a framework that
uses a combination of univariate and multivariate frequency tables from a given
target geographical location in combination with frequency tables from other
auxiliary locations to generate synthetic microdata for individuals in the
target location. Our method combines the estimation of a dependency graph and
conditional probabilities from the target location with the use of a Gaussian
copula to leverage the available information from the auxiliary locations. We
perform extensive testing on two real-world datasets and demonstrate that our
approach outperforms prior approaches in preserving the overall dependency
structure of the data while also satisfying the constraints defined on the
different variables.
- Abstract(参考訳): 人口を特徴付ける個人レベルのデータ(マイクロデータ)は多くの現実世界の問題を研究するのに不可欠である。
しかしながら、そのようなデータの取得はコストやプライバシの制約のため簡単ではなく、アクセスは集約データ(マクロデータ)ソースに限定されることが多い。
本研究では,複数の難解な低分解能データソースからの情報を組み合わせることで,難解な高分解能データを推定するツールとして,合成データ生成を検討する。
特に,与えられた地理的位置から不定値および多変量周波数表の組み合わせと,他の補助位置からの周波数表を組み合わせて,対象位置における個人のための合成マイクロデータを生成するフレームワークを提案する。
提案手法は,対象位置からの依存性グラフと条件確率の推定と,補助位置から利用可能な情報を活用するガウスコーパスの利用を併用する。
2つの実世界のデータセットで広範なテストを行い、我々のアプローチがデータ全体の依存関係構造を保ちながら、異なる変数で定義された制約を満たすという従来のアプローチよりも優れていることを示す。
関連論文リスト
- Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - Collaborative Learning From Distributed Data With Differentially Private
Synthetic Twin Data [15.033125153840308]
本稿では、各当事者がデータの差分プライベートな合成双対を共有する枠組みを提案する。
本研究は,英国バイオバンクの現実世界の健康データに基づいて,このような人工双生児データの組み合わせによる協調学習の実現可能性について検討する。
論文 参考訳(メタデータ) (2023-08-09T07:47:12Z) - Mean Estimation with User-level Privacy under Data Heterogeneity [54.07947274508013]
異なるユーザーは、非常に多くの異なるデータポイントを持っているかもしれない。
すべてのユーザが同じディストリビューションからサンプルを採取していると仮定することはできない。
本研究では,データの分布と量の両方でユーザデータが異なる異質なユーザデータの単純なモデルを提案する。
論文 参考訳(メタデータ) (2023-07-28T23:02:39Z) - Continual Release of Differentially Private Synthetic Data from Longitudinal Data Collections [19.148874215745135]
本研究では,縦方向のデータ収集から微分プライベートな合成データを連続的に放出する問題について検討する。
各ステップごとに、各ステップが新しいデータ要素をレポートするモデルを導入します。
本稿では,2種類のクエリを連続的に保存する合成データ生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-13T16:22:08Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Local Learning Matters: Rethinking Data Heterogeneity in Federated
Learning [61.488646649045215]
フェデレートラーニング(FL)は、クライアントのネットワーク(エッジデバイス)でプライバシ保護、分散ラーニングを行うための有望な戦略である。
論文 参考訳(メタデータ) (2021-11-28T19:03:39Z) - Multi-modal AsynDGAN: Learn From Distributed Medical Image Data without
Sharing Private Information [55.866673486753115]
プライバシーとセキュリティを守るために拡張可能で弾力性のある学習フレームワークを提案します。
提案するフレームワークは分散Asynchronized Discriminator Generative Adrial Networks (AsynDGAN) である。
論文 参考訳(メタデータ) (2020-12-15T20:41:24Z) - SYNC: A Copula based Framework for Generating Synthetic Data from
Aggregated Sources [8.350531869939351]
ダウンスケーリングと呼ばれる合成データ生成タスクについて検討する。
我々はSynC (Synthetic Data Generation via Gaussian Copula) と呼ばれる多段階フレームワークを提案する。
私たちはこの仕事に4つの重要な貢献をしています。
論文 参考訳(メタデータ) (2020-09-20T16:36:25Z) - Meta-analysis of heterogeneous data: integrative sparse regression in
high-dimensions [21.162280861396205]
本稿では,データソースが類似しているが識別できない高次元環境におけるメタ分析の課題について考察する。
異質性の存在下での解釈可能性と統計的効率を重視したグローバルパラメータを導入する。
いくつかの異なる癌細胞株を含む大規模薬物治療データセットに対するアプローチの利点を実証する。
論文 参考訳(メタデータ) (2019-12-26T20:30:57Z) - Distributed Multivariate Regression Modeling For Selecting Biomarkers
Under Data Protection Constraints [0.0]
本稿では,反復呼び出しにおける集約データに基づく自動変数選択によるバイオマーカー同定のための多変数回帰手法を提案する。
このアプローチは、複数のロケーションに分散したデータを共同で分析するために使用することができる。
シミュレーションでは、局所的な標準化によって引き起こされた情報損失は最小限である。
論文 参考訳(メタデータ) (2018-03-01T15:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。