論文の概要: Robustness Analysis of Deep Learning Models for Population Synthesis
- arxiv url: http://arxiv.org/abs/2211.13339v1
- Date: Wed, 23 Nov 2022 22:55:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 17:40:30.274850
- Title: Robustness Analysis of Deep Learning Models for Population Synthesis
- Title(参考訳): 集団合成のための深層学習モデルのロバスト性解析
- Authors: Daniel Opoku Mensah and Godwin Badu-Marfo and Bilal Farooq
- Abstract要約: 複数のデータセットに対するロバスト性を評価するため, 深部生成モデルのブートストラップ信頼区間を示す。
これらのモデルは、2008年、2013年、2018年のモントリオール・オリジン・デスチネーション・サーベイの複数の旅行日記に実装されている。
その結果,CTGANの予測誤差は,複数のデータセットに対する堅牢性を示す信頼区間が狭かった。
- 参考スコア(独自算出の注目度): 5.9106199000537645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep generative models have become useful for synthetic data generation,
particularly population synthesis. The models implicitly learn the probability
distribution of a dataset and can draw samples from a distribution. Several
models have been proposed, but their performance is only tested on a single
cross-sectional sample. The implementation of population synthesis on single
datasets is seen as a drawback that needs further studies to explore the
robustness of the models on multiple datasets. While comparing with the real
data can increase trust and interpretability of the models, techniques to
evaluate deep generative models' robustness for population synthesis remain
underexplored. In this study, we present bootstrap confidence interval for the
deep generative models, an approach that computes efficient confidence
intervals for mean errors predictions to evaluate the robustness of the models
to multiple datasets. Specifically, we adopt the tabular-based Composite Travel
Generative Adversarial Network (CTGAN) and Variational Autoencoder (VAE), to
estimate the distribution of the population, by generating agents that have
tabular data using several samples over time from the same study area. The
models are implemented on multiple travel diaries of Montreal Origin-
Destination Survey of 2008, 2013, and 2018 and compare the predictive
performance under varying sample sizes from multiple surveys. Results show that
the predictive errors of CTGAN have narrower confidence intervals indicating
its robustness to multiple datasets of the varying sample sizes when compared
to VAE. Again, the evaluation of model robustness against varying sample size
shows a minimal decrease in model performance with decrease in sample size.
This study directly supports agent-based modelling by enabling finer synthetic
generation of populations in a reliable environment.
- Abstract(参考訳): 深層生成モデルは、合成データ生成、特に集団合成に有用である。
モデルは暗黙的にデータセットの確率分布を学習し、分布からサンプルを描画する。
いくつかのモデルが提案されているが、性能は1つの断面サンプルでのみテストされている。
単一のデータセット上での集団合成の実装は、複数のデータセット上のモデルのロバスト性を調べるためのさらなる研究が必要である。
実データとの比較によってモデルの信頼度や解釈性が向上する一方で、深層生成モデルの集団合成に対する堅牢性を評価する手法は未検討のままである。
本研究では,複数のデータセットに対するモデルの堅牢性を評価するために,平均誤差予測のための効率的な信頼区間を計算する手法である,深部生成モデルのブートストラップ信頼区間を提案する。
具体的には、同じ研究領域から、複数のサンプルを用いて表データを持つエージェントを生成し、その分布を推定するために、表表ベースの複合旅行生成適応ネットワーク(CTGAN)と変分オートエンコーダ(VAE)を採用する。
これらのモデルは、2008年と2013年と2018年のモントリオールオリジン調査の複数の旅行日記に実装され、複数の調査から得られた様々なサンプルサイズでの予測性能を比較する。
その結果, CTGANの予測誤差は, VAEと比較した場合, サンプルサイズの異なる複数のデータセットに対して頑健性を示す信頼区間が狭いことがわかった。
また, 異なる試料サイズに対するモデルロバスト性の評価は, 試料サイズの減少に伴うモデル性能の最小化を示す。
本研究は,信頼性の高い環境下での個体群を高精度に合成することにより,エージェントベースモデリングを直接支援する。
関連論文リスト
- Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Private Synthetic Data Meets Ensemble Learning [15.425653946755025]
機械学習モデルが合成データに基づいてトレーニングされ、実際のデータにデプロイされると、しばしばパフォーマンス低下が発生する。
実データを用いた場合のパフォーマンス向上を目標として,下流モデルのトレーニングのための新たなアンサンブル戦略を導入する。
論文 参考訳(メタデータ) (2023-10-15T04:24:42Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Bayesian Additive Main Effects and Multiplicative Interaction Models
using Tensor Regression for Multi-environmental Trials [0.0]
本稿では,複数の因子が表現型予測に与える影響を考慮したベイズテンソル回帰モデルを提案する。
我々は、モデルのパラメータ間で生じる可能性のある識別可能性の問題を解決するための、事前分布のセットを採用する。
我々は2010年から2019年までのアイルランドにおける小麦生産に関する実世界のデータを分析して、我々のモデルの適用性を探る。
論文 参考訳(メタデータ) (2023-01-09T19:54:50Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - Predicting Multidimensional Data via Tensor Learning [0.0]
本研究では,本データセットの内在的多次元構造を保持するモデルを開発する。
モデルパラメータを推定するために、オルタネート・リースト・スクエアスアルゴリズムを開発した。
提案モデルは,予測文献に存在するベンチマークモデルより優れている。
論文 参考訳(メタデータ) (2020-02-11T11:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。