論文の概要: Population Synthesis using Incomplete Information
- arxiv url: http://arxiv.org/abs/2510.00859v1
- Date: Wed, 01 Oct 2025 13:09:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.571023
- Title: Population Synthesis using Incomplete Information
- Title(参考訳): 不完全情報を用いた個体群合成
- Authors: Tanay Rastogi, Daniel Jonsson, Anders Karlström,
- Abstract要約: 本稿では,不完全マイクロサンプルの学習にWasserstein Generative-Adversarial Network(WGAN)を用いた集団合成モデルを提案する。
マスクマトリックスを使用して、不足した値を表現し、WGANトレーニングアルゴリズムを提案し、不足した情報を持つトレーニングデータセットからモデルを学習する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents a population synthesis model that utilizes the Wasserstein Generative-Adversarial Network (WGAN) for training on incomplete microsamples. By using a mask matrix to represent missing values, the study proposes a WGAN training algorithm that lets the model learn from a training dataset that has some missing information. The proposed method aims to address the challenge of missing information in microsamples on one or more attributes due to privacy concerns or data collection constraints. The paper contrasts WGAN models trained on incomplete microsamples with those trained on complete microsamples, creating a synthetic population. We conducted a series of evaluations of the proposed method using a Swedish national travel survey. We validate the efficacy of the proposed method by generating synthetic populations from all the models and comparing them to the actual population dataset. The results from the experiments showed that the proposed methodology successfully generates synthetic data that closely resembles a model trained with complete data as well as the actual population. The paper contributes to the field by providing a robust solution for population synthesis with incomplete data, opening avenues for future research, and highlighting the potential of deep generative models in advancing population synthesis capabilities.
- Abstract(参考訳): 本稿では,不完全マイクロサンプルの学習にWasserstein Generative-Adversarial Network(WGAN)を用いた集団合成モデルを提案する。
マスクマトリックスを使用して、不足した値を表現し、WGANトレーニングアルゴリズムを提案し、不足した情報を持つトレーニングデータセットからモデルを学習する。
提案手法は,プライバシの懸念やデータ収集の制約により,マイクロサンプル内の情報不足に対処することを目的としている。
論文は、不完全なマイクロサンプルで訓練されたWGANモデルと、完全なマイクロサンプルで訓練されたWGANモデルを対比し、合成人口を生み出した。
スウェーデンの全国旅行調査を用いて,提案手法の一連の評価を行った。
提案手法の有効性は,すべてのモデルから合成個体群を生成し,実際の個体群データセットと比較することによって検証する。
実験の結果,提案手法は完全なデータと実際の個体群で訓練されたモデルによく似た合成データを生成することができた。
本論文は,不完全データを用いた個体群合成のための堅牢なソリューションの提供,今後の研究への道を開くこと,および,個体群合成能力向上における深層生成モデルの可能性を明らかにすることによって,その分野に寄与する。
関連論文リスト
- Using Imperfect Synthetic Data in Downstream Inference Tasks [50.40949503799331]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を改善することができる。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Generating Feasible and Diverse Synthetic Populations Using Diffusion Models [5.689443449061003]
集団合成は、人口の人工的かつ現実的な表現を生成することに関わる重要な課題である。
深層生成モデルは、実際の集団に存在するがサンプルデータには存在しない可能性のある属性の組み合わせを合成することができる。
本研究では,新しい拡散モデルに基づく集団合成法を提案し,その基礎となる集団の結合分布を推定する。
論文 参考訳(メタデータ) (2025-08-06T03:11:27Z) - Less is More: Adaptive Coverage for Synthetic Training Data [20.136698279893857]
本研究では,最大カバレッジ問題に基づく新しいサンプリングアルゴリズムを導入し,合成されたデータセットから代表サブセットを選択する。
この結果から,この文脈的にサンプリングされたサブセット上での分類器のトレーニングは,データセット全体のトレーニングよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2025-04-20T06:45:16Z) - A Survey on Tabular Data Generation: Utility, Alignment, Fidelity, Privacy, and Beyond [53.56796220109518]
異なるユースケースは、実際に有用な異なる要件を満たすために合成データを要求する。
合成データの実用性、合成データのドメイン固有の知識との整合性、実際のデータ分布と比較しての合成データ分布の統計的忠実度、プライバシ保護能力の4つの要件をレビューする。
今後の分野の方向性と、現在の評価方法を改善する機会について論じる。
論文 参考訳(メタデータ) (2025-03-07T21:47:11Z) - Group Distributionally Robust Dataset Distillation with Risk Minimization [17.05513836324578]
本稿では,クラスタリングとリスク尺度の最小化を組み合わせ,DDを遂行する損失を最小化するアルゴリズムを提案する。
我々は、我々のアプローチに理論的根拠を与え、その効果的な一般化と部分群間のロバスト性を示す。
論文 参考訳(メタデータ) (2024-02-07T09:03:04Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Copula-based transferable models for synthetic population generation [1.370096215615823]
集団合成は、マイクロエージェントの標的集団の合成的かつ現実的な表現を生成することを含む。
従来の手法は、しばしばターゲットのサンプルに依存し、高いコストと小さなサンプルサイズのために制限に直面している。
本研究では,実験的辺縁分布のみが知られている対象個体群を対象とした合成データを生成するためのコプラに基づく新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-02-17T23:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。