論文の概要: Enhancing Diversity and Feasibility: Joint Population Synthesis from Multi-source Data Using Generative Models
- arxiv url: http://arxiv.org/abs/2602.15270v1
- Date: Tue, 17 Feb 2026 00:02:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.943183
- Title: Enhancing Diversity and Feasibility: Joint Population Synthesis from Multi-source Data Using Generative Models
- Title(参考訳): 多様性とフィージビリティの強化:生成モデルを用いたマルチソースデータからの共同個体群合成
- Authors: Farbod Abbasi, Zachary Patterson, Bilal Farooq,
- Abstract要約: 本研究では,WGAN(Wasserstein Generative Adversarial Network)と勾配ペナルティを用いたマルチソースデータセットを同時に統合・合成する手法を提案する。
その結果,提案手法は逐次ベースラインより優れ,リコールは7%,精度は15%向上した。
合成個体群はエージェントベースモデル(ABM)のキー入力として機能するため、このマルチソース生成手法はABMの精度と信頼性を大幅に向上させる可能性がある。
- 参考スコア(独自算出の注目度): 4.73459038844245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating realistic synthetic populations is essential for agent-based models (ABM) in transportation and urban planning. Current methods face two major limitations. First, many rely on a single dataset or follow a sequential data fusion and generation process, which means they fail to capture the complex interplay between features. Second, these approaches struggle with sampling zeros (valid but unobserved attribute combinations) and structural zeros (infeasible combinations due to logical constraints), which reduce the diversity and feasibility of the generated data. This study proposes a novel method to simultaneously integrate and synthesize multi-source datasets using a Wasserstein Generative Adversarial Network (WGAN) with gradient penalty. This joint learning method improves both the diversity and feasibility of synthetic data by defining a regularization term (inverse gradient penalty) for the generator loss function. For the evaluation, we implement a unified evaluation metric for similarity, and place special emphasis on measuring diversity and feasibility through recall, precision, and the F1 score. Results show that the proposed joint approach outperforms the sequential baseline, with recall increasing by 7\% and precision by 15\%. Additionally, the regularization term further improves diversity and feasibility, reflected in a 10\% increase in recall and 1\% in precision. We assess similarity distributions using a five-metric score. The joint approach performs better overall, and reaches a score of 88.1 compared to 84.6 for the sequential method. Since synthetic populations serve as a key input for ABM, this multi-source generative approach has the potential to significantly enhance the accuracy and reliability of ABM.
- Abstract(参考訳): 現実的な合成人口の生成は、輸送と都市計画においてエージェントベースモデル(ABM)に不可欠である。
現在の方法には2つの大きな制限がある。
まず、多くの人は単一のデータセットを頼りにするか、シーケンシャルなデータ融合と生成プロセスに従う。
第二に、これらのアプローチはゼロ(有意だが観測されていない属性の組み合わせ)と構造零(論理的制約による不可能な組み合わせ)のサンプリングに苦労し、生成したデータの多様性と実現可能性を減らす。
本研究では,WGAN(Wasserstein Generative Adversarial Network)と勾配ペナルティを用いたマルチソースデータセットを同時に統合・合成する手法を提案する。
発電機損失関数の正規化項(逆勾配ペナルティ)を定義することにより、合成データの多様性と実現可能性の両方を改善する。
本評価では,類似度を統一した評価基準を実装し,リコール,精度,F1スコアによる多様性と実現可能性の計測に特に重点を置いている。
その結果,提案したジョイントアプローチは逐次ベースラインより優れ,リコールは7\%増加し,精度は15\%向上した。
さらに、レギュラー化という用語は多様性と実現可能性をさらに改善し、リコールの10倍、精度の1倍に反映される。
5-metric score を用いて類似度分布を評価する。
ジョイントアプローチは全体的なパフォーマンスが良く、シーケンシャルメソッドでは84.6のスコアが88.1に達する。
合成個体群はABMの重要な入力として機能するため、このマルチソース生成手法はABMの精度と信頼性を大幅に向上させる可能性がある。
関連論文リスト
- Generating Feasible and Diverse Synthetic Populations Using Diffusion Models [5.689443449061003]
集団合成は、人口の人工的かつ現実的な表現を生成することに関わる重要な課題である。
深層生成モデルは、実際の集団に存在するがサンプルデータには存在しない可能性のある属性の組み合わせを合成することができる。
本研究では,新しい拡散モデルに基づく集団合成法を提案し,その基礎となる集団の結合分布を推定する。
論文 参考訳(メタデータ) (2025-08-06T03:11:27Z) - Efficient Federated Learning with Heterogeneous Data and Adaptive Dropout [62.73150122809138]
Federated Learning(FL)は、複数のエッジデバイスを使用したグローバルモデルの協調トレーニングを可能にする、有望な分散機械学習アプローチである。
動的不均一モデルアグリゲーション(FedDH)と適応ドロップアウト(FedAD)の2つの新しい手法を備えたFedDHAD FLフレームワークを提案する。
これら2つの手法を組み合わせることで、FedDHADは精度(最大6.7%)、効率(最大2.02倍高速)、コスト(最大15.0%小型)で最先端のソリューションを大幅に上回っている。
論文 参考訳(メタデータ) (2025-07-14T16:19:00Z) - Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。
定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。
提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文 参考訳(メタデータ) (2025-05-18T21:46:45Z) - A Large Language Model for Feasible and Diverse Population Synthesis [0.6581049960856515]
ベイズネットワーク(BN)から派生したトポロジ的順序付けにより自己回帰生成過程を明示的に制御する大規模言語モデル(LLM)の微調整法を提案する。
提案手法は、DGM(Deep Generative Model)で観測される80%よりもはるかに高い約95%の実現可能性を実現する。
これにより、メガシティの人口を合成するなど、大規模アプリケーションにとってコスト効率が高くスケーラブルなアプローチが実現される。
論文 参考訳(メタデータ) (2025-05-07T07:50:12Z) - Discrete Flow Matching [74.04153927689313]
本稿では,離散データ生成に特化して設計された新しい離散フローパラダイムを提案する。
我々のアプローチは、非自己回帰的な方法で高品質な離散データを生成することができる。
論文 参考訳(メタデータ) (2024-07-22T12:33:27Z) - Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。
異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文 参考訳(メタデータ) (2024-04-24T09:04:36Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。