論文の概要: Deep and diverse population synthesis for multi-person households using generative models
- arxiv url: http://arxiv.org/abs/2508.09964v1
- Date: Wed, 13 Aug 2025 17:31:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.977399
- Title: Deep and diverse population synthesis for multi-person households using generative models
- Title(参考訳): 生成モデルを用いた多人数世帯の深層・多様な集団合成
- Authors: Hai Yang, Hongying Wu, Linfei Yuan, Xiyuan Ren, Joseph Y. J. Chow, Jinqin Gao, Kaan Ozbay,
- Abstract要約: ニューヨーク州全体の合成人口を生成するために, 新規な人口合成モデルを適用した。
人口は約2000万人、世帯数は750万人である。
国勢調査の限界と比較すると、人工的な人口は17%の多様性を持つデータを提供している。
- 参考スコア(独自算出の注目度): 4.321984653683312
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Synthetic population is an increasingly important material used in numerous areas such as urban and transportation analysis. Traditional methods such as iterative proportional fitting (IPF) is not capable of generating high-quality data when facing datasets with high dimension. Latest population synthesis methods using deep learning techniques can resolve such curse of dimensionality. However, few controls are placed when using these methods, and few of the methods are used to generate synthetic population capturing associations among members in one household. In this study, we propose a framework that tackles these issues. The framework uses a novel population synthesis model, called conditional input directed acyclic tabular generative adversarial network (ciDATGAN), as its core, and a basket of methods are employed to enhance the population synthesis performance. We apply the model to generate a synthetic population for the whole New York State as a public resource for researchers and policymakers. The synthetic population includes nearly 20 million individuals and 7.5 million households. The marginals obtained from the synthetic population match the census marginals well while maintaining similar associations among household members to the sample. Compared to the PUMS data, the synthetic population provides data that is 17% more diverse; when compared against a benchmark approach based on Popgen, the proposed method is 13% more diverse. This study provides an approach that encompasses multiple methods to enhance the population synthesis procedure with greater equity- and diversity-awareness.
- Abstract(参考訳): 合成人口は、都市分析や交通分析など、多くの分野でますます重要になっている。
反復比例フィッティング(IPF)のような従来の手法では、高次元のデータセットに直面すると高品質なデータを生成することができない。
深層学習技術を用いた最新の人口合成手法は、このような次元の呪いを解決することができる。
しかし、これらの方法を用いた場合のコントロールは少なく、一世帯の会員間での集団捕獲関連を生み出す方法はほとんどない。
本研究では,これらの課題に対処する枠組みを提案する。
このフレームワークは、条件入力指向の非周期的表層生成逆数ネットワーク(ciDATGAN)と呼ばれる新しい集団合成モデルを用いており、集団合成性能を高めるために、そのコアとしてメソッドのバスケットを用いる。
研究者や政策立案者のための公共資源として、ニューヨーク州全体の合成人口を生成するために、このモデルを適用した。
人口は約2000万人、世帯数は750万人である。
総合人口から得られた限界は, 世帯間の類似の関連を維持しつつ, 国勢調査の限界とよく一致した。
PUMSデータと比較すると,合成個体数は17%ほど多様であり,Popgenに基づくベンチマーク手法と比較すると,提案手法の方が13%多様である。
本研究は,集団合成の手順を,より公平で多様性に配慮した複数の手法を包含するアプローチを提案する。
関連論文リスト
- Generating Feasible and Diverse Synthetic Populations Using Diffusion Models [5.689443449061003]
集団合成は、人口の人工的かつ現実的な表現を生成することに関わる重要な課題である。
深層生成モデルは、実際の集団に存在するがサンプルデータには存在しない可能性のある属性の組み合わせを合成することができる。
本研究では,新しい拡散モデルに基づく集団合成法を提案し,その基礎となる集団の結合分布を推定する。
論文 参考訳(メタデータ) (2025-08-06T03:11:27Z) - A Survey on Tabular Data Generation: Utility, Alignment, Fidelity, Privacy, and Beyond [53.56796220109518]
異なるユースケースは、実際に有用な異なる要件を満たすために合成データを要求する。
合成データの実用性、合成データのドメイン固有の知識との整合性、実際のデータ分布と比較しての合成データ分布の統計的忠実度、プライバシ保護能力の4つの要件をレビューする。
今後の分野の方向性と、現在の評価方法を改善する機会について論じる。
論文 参考訳(メタデータ) (2025-03-07T21:47:11Z) - A multi-objective combinatorial optimisation framework for large scale hierarchical population synthesis [1.2233362977312945]
エージェントベースのシミュレーションでは、エージェントの合成集団は個人の構造、行動、相互作用を表現するために一般的に使用される。
大規模集団合成のための多目的最適化手法を提案する。
提案手法は, 個人と世帯間の複雑な階層構造をサポートし, 大規模に拡張可能であり, 連続表復元誤差の最小化を実現する。
論文 参考訳(メタデータ) (2024-07-03T15:01:12Z) - Benchmarking Private Population Data Release Mechanisms: Synthetic Data vs. TopDown [50.40020716418472]
本研究では、TopDownアルゴリズムとプライベート合成データ生成を比較し、クエリの複雑さによる精度への影響を判定する。
この結果から,TopDownアルゴリズムは,分散クエリに対して,評価したどの合成データ手法よりもはるかに優れたプライバシー-忠実トレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2024-01-31T17:38:34Z) - UnitedHuman: Harnessing Multi-Source Data for High-Resolution Human
Generation [59.77275587857252]
総合的な人間のデータセットは、必然的に、局所的な部分についての不十分で低解像度な情報を持っている。
本稿では,高解像度な人為的生成モデルを共同で学習するために,様々な解像度画像を用いたマルチソースデータセットを提案する。
論文 参考訳(メタデータ) (2023-09-25T17:58:46Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Copula-based transferable models for synthetic population generation [1.370096215615823]
集団合成は、マイクロエージェントの標的集団の合成的かつ現実的な表現を生成することを含む。
従来の手法は、しばしばターゲットのサンプルに依存し、高いコストと小さなサンプルサイズのために制限に直面している。
本研究では,実験的辺縁分布のみが知られている対象個体群を対象とした合成データを生成するためのコプラに基づく新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-02-17T23:58:14Z) - Generating Synthetic Population [0.680303951699936]
インドのような国において,様々な行政レベルで合成人口を生成する方法を提案する。
この人工個体群は、インド国勢調査2011, IHDS-II, NSS-68th Round, GPWなどの調査データに応用された機械学習と統計手法を用いて作成されている。
論文 参考訳(メタデータ) (2022-09-20T19:31:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。