論文の概要: Synthetic Data in Education: Empirical Insights from Traditional Resampling and Deep Generative Models
- arxiv url: http://arxiv.org/abs/2604.21031v1
- Date: Wed, 22 Apr 2026 19:23:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.151497
- Title: Synthetic Data in Education: Empirical Insights from Traditional Resampling and Deep Generative Models
- Title(参考訳): 教育における合成データ: 伝統的な再サンプリングと深層生成モデルによる実証的考察
- Authors: Tapiwa Amion Chinodakufa, Ashfaq Ali Shafin, Khandaker Mamun Ahmed,
- Abstract要約: 本研究では,従来の再サンプリング手法と最新のディープラーニング手法を比較した最初の体系的ベンチマークを示す。
我々は3つのディープラーニングモデル(Autoencoder, Variational Autoencoder, Copula-GAN)に対して3つの再サンプリング手法(SMOTE, Bootstrap, Random Oversampling)を評価する。
再サンプリング手法は、ほぼ完全なユーティリティ(TSTR:0.997)を実現するが、完全なプライバシ保護(DCR 0.00)が失敗する一方、ディープラーニングモデルは、大きなユーティリティコストで強力なプライバシ保証(DCR 1.00)を提供する。
- 参考スコア(独自算出の注目度): 0.391985484065646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic data generation offers promise for addressing data scarcity and privacy concerns in educational technology, yet practitioners lack empirical guidance for selecting between traditional resampling techniques and modern deep learning approaches. This study presents the first systematic benchmark comparing these paradigms using a 10,000-record student performance dataset. We evaluate three resampling methods (SMOTE, Bootstrap, Random Oversampling) against three deep learning models (Autoencoder, Variational Autoencoder, Copula-GAN) across multiple dimensions: distributional fidelity (Kolmogorov-Smirnov distance, Jensen-Shannon divergence), machine learning utility such as Train-on-Synthetic-Test-on-Real scores (TSTR), and privacy preservation (Distance to Closest Record). Our findings reveal a fundamental trade-off: resampling methods achieve near-perfect utility (TSTR: 0.997) but completely fail privacy protection (DCR ~ 0.00), while deep learning models provide strong privacy guarantees (DCR ~ 1.00) at significant utility cost. Variational Autoencoders emerge as the optimal compromise, maintaining 83.3% predictive performance while ensuring complete privacy protection. We also provide actionable recommendations: use traditional resampling for internal development where privacy is controlled, and VAEs for external data sharing where privacy is paramount. This work establishes a foundational benchmark and practical decision framework for synthetic data generation in learning analytics.
- Abstract(参考訳): シンセティックデータ生成は、教育技術におけるデータの不足とプライバシの懸念に対処するための約束を提供するが、実践者は従来の再サンプリング技術と現代のディープラーニングアプローチを選択するための実証的なガイダンスを欠いている。
本研究は,1万の学生のパフォーマンスデータセットを用いて,これらのパラダイムを比較した最初の体系的ベンチマークを示す。
SMOTE, Bootstrap, Random Oversampling) と3つの深層学習モデル (Autoencoder, Variational Autoencoder, Copula-GAN) を多次元にわたって比較検討し, 分布の忠実度 (Kolmogorov-Smirnov distance, Jensen-Shannon divergence) , Train-on-Synthetic-Test-on-Real scores (TSTR) などの機械学習ユーティリティ, プライバシー保護率 (Distance to Closest Record) について検討した。
再サンプリング手法は、ほぼ完全なユーティリティ(TSTR:0.997)を実現するが、完全なプライバシ保護(DCR ~ 0.00)を失敗する一方、ディープラーニングモデルは、大きなユーティリティコストで強力なプライバシ保証(DCR ~ 1.00)を提供する。
変分オートコーダは最適な妥協として登場し、83.3%の予測性能を維持し、完全なプライバシー保護を確保している。
従来のリサンプリングを、プライバシがコントロールされている内部開発に使用し、プライバシが最重要である外部データ共有にVAEを使用します。
この研究は、学習分析における合成データ生成のための基礎的なベンチマークと実践的な決定フレームワークを確立する。
関連論文リスト
- Learning More with Less: A Generalizable, Self-Supervised Framework for Privacy-Preserving Capacity Estimation with EV Charging Data [84.37348569981307]
自己教師付き事前学習に基づく第一種能力推定モデルを提案する。
我々のモデルは一貫して最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-05T08:58:35Z) - Synthetic Data Generation and Differential Privacy using Tensor Networks' Matrix Product States (MPS) [33.032422801043495]
マトリックス製品状態(MPS)を用いたプライバシー保護のための高品質な合成データ生成手法を提案する。
我々は,MPSベースの生成モデルをCTGAN,VAE,PrivBayesといった最先端モデルと比較した。
以上の結果から,MPSは特に厳格なプライバシー制約の下で,従来のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-08-08T12:14:57Z) - Differentially Private Random Feature Model [47.35176457481132]
プライバシを保存するカーネルマシンに対して,差分的にプライベートな特徴モデルを作成する。
本手法は,プライバシを保護し,一般化誤差を導出する。
論文 参考訳(メタデータ) (2024-12-06T05:31:08Z) - Empirical Privacy Evaluations of Generative and Predictive Machine Learning Models -- A review and challenges for practice [0.3069335774032178]
生成技術を展開する前に、生成した合成データに関連するプライバシーリスクを実証的に評価することが重要である。
本稿では,機械学習に基づく生成および予測モデルにおける経験的プライバシ評価の基礎となる概念と前提について概説する。
論文 参考訳(メタデータ) (2024-11-19T12:19:28Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - Theoretically Principled Federated Learning for Balancing Privacy and
Utility [61.03993520243198]
モデルパラメータを歪ませることでプライバシを保護する保護機構の一般学習フレームワークを提案する。
フェデレートされた学習における各コミュニケーションラウンドにおいて、各クライアント上の各モデルパラメータに対して、パーソナライズされたユーティリティプライバシトレードオフを実現することができる。
論文 参考訳(メタデータ) (2023-05-24T13:44:02Z) - Synthetic Text Generation with Differential Privacy: A Simple and
Practical Recipe [32.63295550058343]
テキスト領域におけるシンプルで実用的なレシピは、強力なプライバシー保護を備えた有用な合成テキストを生成するのに有効であることを示す。
提案手法は,非私的テキストと実用性で競合する合成テキストを生成する。
論文 参考訳(メタデータ) (2022-10-25T21:21:17Z) - PEARL: Data Synthesis via Private Embeddings and Adversarial
Reconstruction Learning [1.8692254863855962]
本稿では, 深層生成モデルを用いたデータ・フレームワークを, 差分的にプライベートな方法で提案する。
当社のフレームワークでは、センシティブなデータは、厳格なプライバシ保証をワンショットで行うことで衛生化されています。
提案手法は理論的に性能が保証され,複数のデータセットに対する経験的評価により,提案手法が適切なプライバシーレベルで他の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-08T18:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。