論文の概要: A Deep Generative Framework for Joint Households and Individuals Population Synthesis
- arxiv url: http://arxiv.org/abs/2407.01643v1
- Date: Sun, 30 Jun 2024 23:01:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 19:52:16.198390
- Title: A Deep Generative Framework for Joint Households and Individuals Population Synthesis
- Title(参考訳): 共同家庭と個人集団合成のための深層的枠組み
- Authors: Xiao Qian, Utkarsh Gangwal, Shangjia Dong, Rachel Davidson,
- Abstract要約: 世帯・個人・個人・個人関係を持つ合成集団を創出するための深い生成枠組みを提案する。
米国デラウェア州での申請の結果は、生成された家庭内レコードのリアリズムを確実にする能力を示している。
- 参考スコア(独自算出の注目度): 0.562479170374811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Household and individual-level sociodemographic data are essential for understanding human-infrastructure interaction and policymaking. However, the Public Use Microdata Sample (PUMS) offers only a sample at the state level, while census tract data only provides the marginal distributions of variables without correlations. Therefore, we need an accurate synthetic population dataset that maintains consistent variable correlations observed in microdata, preserves household-individual and individual-individual relationships, adheres to state-level statistics, and accurately represents the geographic distribution of the population. We propose a deep generative framework leveraging the variational autoencoder (VAE) to generate a synthetic population with the aforementioned features. The methodological contributions include (1) a new data structure for capturing household-individual and individual-individual relationships, (2) a transfer learning process with pre-training and fine-tuning steps to generate households and individuals whose aggregated distributions align with the census tract marginal distribution, and (3) decoupled binary cross-entropy (D-BCE) loss function enabling distribution shift and out-of-sample records generation. Model results for an application in Delaware, USA demonstrate the ability to ensure the realism of generated household-individual records and accurately describe population statistics at the census tract level compared to existing methods. Furthermore, testing in North Carolina, USA yielded promising results, supporting the transferability of our method.
- Abstract(参考訳): 家庭と個人レベルの社会デマトグラフィーデータは、人-インフラ相互作用と政策形成を理解するために不可欠である。
しかし、パブリック・ユース・マイクロデータ・サンプル(PUMS)は州レベルでのみサンプルを提供し、国勢調査トラクトデータは相関のない変数の限界分布のみを提供する。
したがって、マイクロデータで観測される一貫した変動相関を維持し、家庭・個人・個人関係を保存し、国家レベルの統計に従属し、人口の地理的分布を正確に表現する正確な合成人口データセットが必要である。
本稿では, 可変オートエンコーダ(VAE)を利用して, 上記の特徴を持つ合成個体群を生成する, 深層生成フレームワークを提案する。
提案手法は,(1)個人・個人・個人間の関係を収集する新たなデータ構造,(2)人口分布と人口分布が一致した世帯・個人を事前学習・微調整するトランスファー学習プロセス,(3)分散シフトとアウト・オブ・サンプルレコードの生成を可能にするデカップリングバイナリ・クロス・エントロピー(D-BCE)損失関数を含む。
米国デラウェア州での応用のためのモデル結果は、生成された家庭内個人記録の現実性を保証する能力を示し、既存の方法と比較して人口統計を正確に記述する能力を示している。
さらにノースカロライナでの試験では,提案手法の伝達性を支持する有望な結果が得られた。
関連論文リスト
- Idiographic Personality Gaussian Process for Psychological Assessment [7.394943089551214]
本稿では,長期間にわたる議論に対処するため,ガウス過程のコリージョン化モデルに基づく新しい測定フレームワークを開発する。
本稿では,個体群間の共有形質構造と,個体群に対する「イディオグラフィー」偏差を両立する中間モデルであるIPGP(idiographic personality Gaussian process)の枠組みを提案する。
論文 参考訳(メタデータ) (2024-07-06T06:09:04Z) - Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。
異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文 参考訳(メタデータ) (2024-04-24T09:04:36Z) - Copula-based transferable models for synthetic population generation [1.370096215615823]
集団合成は、マイクロエージェントの標的集団の合成的かつ現実的な表現を生成することを含む。
従来の手法は、しばしばターゲットのサンプルに依存し、高いコストと小さなサンプルサイズのために制限に直面している。
本研究では,実験的辺縁分布のみが知られている対象個体群を対象とした合成データを生成するためのコプラに基づく新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-02-17T23:58:14Z) - Heterogeneous Datasets for Federated Survival Analysis Simulation [6.489759672413373]
本研究では、既存の非フェデレーションデータセットから再現可能な方法で開始することで、現実的な異種データセットを構築する新しい手法を提案する。
具体的には、ディリクレ分布に基づく2つの新しいデータセット分割アルゴリズムを提供し、各データサンプルを慎重に選択したクライアントに割り当てる。
提案手法の実装は,フェデレートされた環境をシミュレートしてサバイバル分析を行うことを推奨し,広く普及している。
論文 参考訳(メタデータ) (2023-01-28T11:37:07Z) - Improving Correlation Capture in Generating Imbalanced Data using
Differentially Private Conditional GANs [2.2265840715792735]
DP-CGANSは,データ変換,サンプリング,コンディショニング,ネットワークトレーニングにより,現実的かつプライバシ保護データを生成する,微分プライベートな条件付きGANフレームワークである。
統計的類似性,機械学習性能,プライバシ測定の点から,3つの公開データセットと2つの実世界の個人健康データセットの最先端生成モデルを用いて,我々のモデルを広範囲に評価した。
論文 参考訳(メタデータ) (2022-06-28T06:47:27Z) - FedH2L: Federated Learning with Model and Statistical Heterogeneity [75.61234545520611]
フェデレートラーニング(FL)は、分散参加者が個々のデータのプライバシを犠牲にすることなく、強力なグローバルモデルを集合的に学習することを可能にする。
我々はFedH2Lを導入し、これはモデルアーキテクチャに非依存であり、参加者間で異なるデータ分散に対して堅牢である。
パラメータや勾配を共有するアプローチとは対照的に、FedH2Lは相互蒸留に依存し、参加者間で共有シードセットの後方のみを分散的に交換する。
論文 参考訳(メタデータ) (2021-01-27T10:10:18Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z) - Differential Privacy of Hierarchical Census Data: An Optimization
Approach [53.29035917495491]
国勢調査局(Census Bureaus)は、個人に関する機密情報を明らかにすることなく、大人口に関する社会経済的データをまとめて公開することに興味を持っている。
最近の出来事では、これらの組織が直面しているプライバシー上の課題がいくつか特定されている。
本稿では,階層的な個人数を解放する新たな差分プライバシ機構を提案する。
論文 参考訳(メタデータ) (2020-06-28T18:19:55Z) - Magnify Your Population: Statistical Downscaling to Augment the Spatial
Resolution of Socioeconomic Census Data [48.7576911714538]
重要社会経済的属性の詳細な推定を導出する新しい統計的ダウンスケーリング手法を提案する。
選択された社会経済変数ごとに、ランダムフォレストモデルが元の国勢調査単位に基づいて訓練され、その後、微細なグリッド化された予測を生成するために使用される。
本研究では,この手法を米国の国勢調査データに適用し,ブロック群レベルで選択された社会経済変数を,300の空間分解能のグリッドにダウンスケールする。
論文 参考訳(メタデータ) (2020-06-23T16:52:18Z) - Survival Cluster Analysis [93.50540270973927]
異なるリスクプロファイルを持つサブポピュレーションを特定するために、生存分析には未解決の必要性がある。
このニーズに対処するアプローチは、個々の成果のキャラクタリゼーションを改善する可能性が高い。
論文 参考訳(メタデータ) (2020-02-29T22:41:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。