論文の概要: Stable and Privacy-Preserving Synthetic Educational Data with Empirical Marginals: A Copula-Based Approach
- arxiv url: http://arxiv.org/abs/2604.04195v1
- Date: Sun, 05 Apr 2026 17:34:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.975219
- Title: Stable and Privacy-Preserving Synthetic Educational Data with Empirical Marginals: A Copula-Based Approach
- Title(参考訳): 経験的マルジナルを用いた安定・プライバシ保護型総合教育データ:コピュラに基づくアプローチ
- Authors: Gabriel Diaz Ramos, Lorenzo Luzi, Debshila Basu Mallick, Richard Baraniuk,
- Abstract要約: Non-Parametric Gaussian Copula (NPGC) は、深層学習とパラメトリック最適化を経験的統計的アンカーに置き換えるプラグアンドプレイ合成法である。
NPGCは、差分プライバシー(DP)を限界レベルと相関レベルの両方で統合し、異種変数タイプをサポートし、欠落したデータを明示的な状態として扱い、情報的不在パターンを維持する。
- 参考スコア(独自算出の注目度): 1.5449641546929325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To advance Educational Data Mining (EDM) within strict privacy-protecting regulatory frameworks, researchers must develop methods that enable data-driven analysis while protecting sensitive student information. Synthetic data generation is one such approach, enabling the release of statistically generated samples instead of real student records; however, existing deep learning and parametric generators often distort marginal distributions and degrade under iterative regeneration, leading to distribution drift and progressive loss of distributional support that compromise reliability. In response, we introduce the Non-Parametric Gaussian Copula (NPGC), a plug-and-play synthesis method that replaces deep learning and parametric optimization with empirical statistical anchoring to preserve the observed marginal distributions while modeling dependencies through a copula framework. NPGC integrates Differential Privacy (DP) at both the marginal and correlation levels, supports heterogeneous variable types, and treats missing data as an explicit state to retain informative absence patterns. We evaluate NPGC against deep learning and parametric baselines on five benchmark datasets and demonstrate that it remains stable across multiple regeneration cycles and achieves competitive downstream performance at substantially lower computational cost. We further validate NPGC through deployment in a real-world online learning platform, demonstrating its practicality for privacy-preserving research.
- Abstract(参考訳): 厳格なプライバシー保護規制枠組みで教育データマイニング(EDM)を推進するために、研究者は機密情報を保護しながらデータ駆動分析を可能にする方法を開発する必要がある。
合成データ生成は、実際の学生記録の代わりに統計的に生成されたサンプルを解放できるアプローチである。しかし、既存のディープラーニングとパラメトリックジェネレータは、しばしば限界分布を歪め、反復的再生の下で劣化させ、信頼性を損なう分布のドリフトと、分布支援の進歩的な損失をもたらす。
そこで本研究では,NPGC (Non-Parametric Gaussian Copula) を提案する。NPGC (Non-Parametric Gaussian Copula) は,深層学習とパラメトリック最適化を経験的統計アンカーに置き換え,観測された限界分布の保存と,コプラフレームワークによる依存性のモデリングを行う。
NPGCは、差分プライバシー(DP)を限界レベルと相関レベルの両方で統合し、異種変数タイプをサポートし、欠落したデータを明示的な状態として扱い、情報的不在パターンを維持する。
NPGCを5つのベンチマークデータセット上での深層学習とパラメトリックベースラインに対して評価し、複数の再生サイクルで安定であり、計算コストが大幅に低いダウンストリーム性能を実現することを実証した。
実世界のオンライン学習プラットフォームへの展開を通じてNPGCをさらに検証し、プライバシー保護研究の実践性を実証する。
関連論文リスト
- Beyond Static Datasets: Robust Offline Policy Optimization via Vetted Synthetic Transitions [4.359780028396042]
静的データセットと学習ポリシ間の分散シフトに対処するモデルベースのフレームワークであるMoReBRACを提案する。
本研究では,変分オートエンコーダ(VAE)モデル検出,モデル感度解析,モンテカルロ(MC)ドロップアウトを統合した階層的不確実性パイプラインを実装した。
D4RL Gym-MuJoCoベンチマークの結果,特にランダム'とサブ最適'のデータ構造において,大幅な性能向上が示された。
論文 参考訳(メタデータ) (2026-01-26T03:38:27Z) - Heterogeneous Multisource Transfer Learning via Model Averaging for Positive-Unlabeled Data [2.030810815519794]
本研究では,異種データソースからの情報を直接データ共有なしで統合するトランスファー学習フレームワークを提案する。
各ソースドメインタイプに対して、調整されたロジスティック回帰モデルを実行し、平均化によって知識をPUターゲットドメインに転送する。
提案手法は,特にラベル付きデータや異種環境において,予測精度とロバスト性において,他の比較手法よりも優れる。
論文 参考訳(メタデータ) (2025-11-14T03:15:31Z) - Latent Noise Injection for Private and Statistically Aligned Synthetic Data Generation [7.240170769827935]
データの合成は、スケーラブルでプライバシー保護の統計分析に欠かせないものとなっている。
マスク付き自己回帰流(MAF)を用いた潜時ノイズ注入法を提案する。
トレーニングされたモデルから直接サンプリングする代わりに、我々のメソッドは潜在空間の各データポイントを摂動させ、それをデータドメインにマップします。
論文 参考訳(メタデータ) (2025-06-19T22:22:57Z) - Robust Molecular Property Prediction via Densifying Scarce Labeled Data [53.24886143129006]
薬物発見において、研究を進める上で最も重要な化合物は、しばしば訓練セットを越えている。
本稿では, ラベル付きデータを利用して, 分布内データ(ID)と分布外データ(OOD)を補間する2段階最適化手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T15:27:40Z) - Conditional Data Synthesis Augmentation [4.3108820946281945]
Conditional Data Synthesis Augmentation (CoDSA)は、マルチモーダルドメイン間のモデルパフォーマンスを改善するために高忠実度データを合成する新しいフレームワークである。
合成データの現実性を高め,スパース領域の試料密度を高めるために,CoDSAファインチューン事前学習生成モデルを構築した。
本稿では,合成サンプル量と対象領域割り当ての関数として,CoDSAが実現した統計的精度向上を定量化する理論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-04-10T03:38:11Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Perturbation-Assisted Sample Synthesis: A Novel Approach for Uncertainty
Quantification [3.175239447683357]
本稿では、摂動支援サンプル合成(PASS)法により生成された合成データを利用した新しい摂動支援推論(PAI)フレームワークを提案する。
このフレームワークは、複雑なデータシナリオ、特に非構造化データの不確実性定量化に焦点を当てている。
我々は、画像合成、感情語分析、マルチモーダル推論、予測区間の構築など、様々な分野に適用することで、複雑なデータ駆動タスクにおける不確実性定量化を推し進める上で、PAIの有効性を実証する。
論文 参考訳(メタデータ) (2023-05-30T01:01:36Z) - Data-heterogeneity-aware Mixing for Decentralized Learning [63.83913592085953]
グラフの混合重みとノード間のデータ不均一性の関係に収束の依存性を特徴付ける。
グラフが現在の勾配を混合する能力を定量化する計量法を提案する。
そこで本研究では,パラメータを周期的かつ効率的に最適化する手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T15:54:35Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。