論文の概要: Probabilistic causal graphs as categorical data synthesizers: Do they do better than Gaussian Copulas and Conditional Tabular GANs?
- arxiv url: http://arxiv.org/abs/2504.11547v1
- Date: Tue, 15 Apr 2025 18:41:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:39:55.262083
- Title: Probabilistic causal graphs as categorical data synthesizers: Do they do better than Gaussian Copulas and Conditional Tabular GANs?
- Title(参考訳): カテゴリーデータシンセサイザーとしての確率的因果グラフ : ガウスコピュラスや条件付きタブラルガンより優れているか?
- Authors: Olha Shaposhnyk, Noor Abid, Mouri Zakir, Svetlana Yanushkevich,
- Abstract要約: 本研究では,因果グラフモデルを用いて,調査データなどの高品質な合成分類データの生成について検討する。
障害者サービスへのアクセシビリティ調査に基づくカテゴリーデータを用いた。
我々は、因果関係を表現し、変数間の結合分布を捉えるために、SEMモデルとBNモデルの両方を作成しました。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study investigates the generation of high-quality synthetic categorical data, such as survey data, using causal graph models. Generating synthetic data aims not only to create a variety of data for training the models but also to preserve privacy while capturing relationships between the data. The research employs Structural Equation Modeling (SEM) followed by Bayesian Networks (BN). We used the categorical data that are based on the survey of accessibility to services for people with disabilities. We created both SEM and BN models to represent causal relationships and to capture joint distributions between variables. In our case studies, such variables include, in particular, demographics, types of disability, types of accessibility barriers and frequencies of encountering those barriers. The study compared the SEM-based BN method with alternative approaches, including the probabilistic Gaussian copula technique and generative models like the Conditional Tabular Generative Adversarial Network (CTGAN). The proposed method outperformed others in statistical metrics, including the Chi-square test, Kullback-Leibler divergence, and Total Variation Distance (TVD). In particular, the BN model demonstrated superior performance, achieving the highest TVD, indicating alignment with the original data. The Gaussian Copula ranked second, while CTGAN exhibited moderate performance. These analyses confirmed the ability of the SEM-based BN to produce synthetic data that maintain statistical and relational validity while maintaining confidentiality. This approach is particularly beneficial for research on sensitive data, such as accessibility and disability studies.
- Abstract(参考訳): 本研究では,因果グラフモデルを用いて,調査データなどの高品質な合成分類データの生成について検討する。
合成データの生成は、モデルをトレーニングするためのさまざまなデータを生成するだけでなく、データ間の関係をキャプチャしながらプライバシを保存することを目的としている。
この研究には構造方程式モデリング(SEM)とベイジアンネットワーク(BN)が採用されている。
障害者サービスへのアクセシビリティ調査に基づくカテゴリーデータを用いた。
我々は、因果関係を表現し、変数間の結合分布を捉えるために、SEMモデルとBNモデルの両方を作成しました。
今回のケーススタディでは、人口統計学、障害の種類、アクセシビリティバリアの種類、障害に遭遇する頻度など、このような変数が挙げられています。
この研究は、SEMに基づくBN法と、確率ガウスコーパス法や、条件付きタブララ生成逆数ネットワーク(CTGAN)のような生成モデルを含む別のアプローチとの比較を行った。
提案手法は,Chi-square test,Kullback-Leibler divergence,Total Variation Distance (TVD) など,他の統計指標よりも優れていた。
特に、BNモデルは優れた性能を示し、最高のTVDを達成し、元のデータと一致したことを示す。
ガウシアン・コプラは2位、CTGANは適度な成績を示した。
これらの分析により、SEMベースのBNが、機密性を保ちながら統計的および関係的妥当性を維持する合成データを生成する能力が確認された。
このアプローチは、アクセシビリティや障害研究などのセンシティブなデータの研究に特に有用である。
関連論文リスト
- An improved tabular data generator with VAE-GMM integration [9.4491536689161]
本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。
本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。
我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
論文 参考訳(メタデータ) (2024-04-12T12:31:06Z) - Sample, estimate, aggregate: A recipe for causal discovery foundation models [28.116832159265964]
因果発見は、生物学的実験から機械的な洞察を明らかにする可能性がある。
因果グラフを予測するために,大規模合成データに基づいて学習した教師付きモデルを提案する。
我々のアプローチは、発見アルゴリズムの出力の典型的なエラーがデータセット間で比較できるという観察によって実現されている。
論文 参考訳(メタデータ) (2024-02-02T21:57:58Z) - Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - A Federated Learning-based Industrial Health Prognostics for
Heterogeneous Edge Devices using Matched Feature Extraction [16.337207503536384]
本稿では,特徴類似性マッチングパラメータアグリゲーションアルゴリズムを用いたFL型健康予後モデルを提案する。
提案手法は, 健康状態推定と生活寿命推定において, 44.5%, 39.3%の精度向上を達成できることを示す。
論文 参考訳(メタデータ) (2023-05-13T07:20:31Z) - Bayesian Networks for the robust and unbiased prediction of depression
and its symptoms utilizing speech and multimodal data [65.28160163774274]
我々は,抑うつ,抑うつ症状,および,胸腺で収集された音声,表情,認知ゲームデータから得られる特徴の関連性を把握するためにベイズ的枠組みを適用した。
論文 参考訳(メタデータ) (2022-11-09T14:48:13Z) - Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular
data [81.43750358586072]
本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。
実世界の4つの医療データセットに対するData-IQの利点を実験的に実証した。
論文 参考訳(メタデータ) (2022-10-24T08:57:55Z) - Improving Correlation Capture in Generating Imbalanced Data using
Differentially Private Conditional GANs [2.2265840715792735]
DP-CGANSは,データ変換,サンプリング,コンディショニング,ネットワークトレーニングにより,現実的かつプライバシ保護データを生成する,微分プライベートな条件付きGANフレームワークである。
統計的類似性,機械学習性能,プライバシ測定の点から,3つの公開データセットと2つの実世界の個人健康データセットの最先端生成モデルを用いて,我々のモデルを広範囲に評価した。
論文 参考訳(メタデータ) (2022-06-28T06:47:27Z) - Mixed Effects Neural ODE: A Variational Approximation for Analyzing the
Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。
我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。
次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-18T22:41:51Z) - Transitioning from Real to Synthetic data: Quantifying the bias in model [1.6134566438137665]
本研究では,合成データを用いたモデルにおけるバイアスと公平性のトレードオフを確立することを目的とする。
合成データを用いて訓練したモデルには、様々なレベルのバイアスの影響があることを実証する。
論文 参考訳(メタデータ) (2021-05-10T06:57:14Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。