論文の概要: Training-Free Private Synthesis with Validation: A New Frontier for Practical Educational Data Sharing
- arxiv url: http://arxiv.org/abs/2604.01821v1
- Date: Thu, 02 Apr 2026 09:32:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.632852
- Title: Training-Free Private Synthesis with Validation: A New Frontier for Practical Educational Data Sharing
- Title(参考訳): バリデーションによる学習自由な私的合成 : 実践的データ共有のための新たなフロンティア
- Authors: Hibiki Ito, Chia-Yu Hsu, Hiroaki Ogata,
- Abstract要約: 教育における実世界のデータ(RWD)の二次利用は、かなりの研究機会を提供する。
しかし、データ共有はプライバシーの制約によって制限されることが多い。
微分プライベート合成データ生成(DP-SDG)が実現可能なソリューションとして浮上している。
- 参考スコア(独自算出の注目度): 0.28675177318965034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While secondary use of real-world data (RWD) in education offers substantial research opportunities, data sharing is often limited by privacy constraints. Differentially private synthetic data generation (DP-SDG) has emerged as a possible solution. However, educational RWD is fragmented across platforms and institutions and stored in different formats, so DP-SDG must be tailored to each dataset, requiring substantial engineering effort. In addition, such data are often small-sample and high-dimensional, making deep learning (DL)-based methods common but difficult to implement without specialist expertise. In this setting, it is also hard to achieve practically useful downstream utility. As a result, despite its theoretical promise, DP-SDG remains far from a practical solution in education. To address this issue, we propose a more practical two-stage method: (1) training-free, LLM-based DP-SDG is performed for sharing synthetic data and (2) on-demand real-data validation, where researchers submit code for remote validation of results. This simple method is designed for individual data custodians without extensive DP-SDG expertise. It can also be adapted to multi-shot synthesis, where data from different learner cohorts are synthesised regularly. We evaluate this method experimentally in both the one-shot and multi-shot synthesis settings using RWD collected over three years and conduct a case study with real researchers. Results show that LLM-based DP-SDG performs comparably to a DL-based baseline while greatly reducing engineering costs, and that non-DP validation causes measurable but moderate privacy leakage. Nonetheless, in the case study researchers reported that on average only 36% of synthetic findings are validated on real data. Overall, the paper provides a practical method for sharing educational RWD, while highlighting challenges in risk mitigation and epistemic precision.
- Abstract(参考訳): 教育における実世界のデータ(RWD)の二次利用は、かなりの研究機会を提供するが、データ共有はプライバシーの制約によって制限されることが多い。
微分プライベート合成データ生成(DP-SDG)が実現可能なソリューションとして浮上している。
しかし、教育用RWDはプラットフォームや機関にまたがって断片化され、異なるフォーマットで保存されるため、DP-SDGは各データセットに合わせて調整されなければならない。
さらに、このようなデータはしばしば小さなサンプルで高次元であり、ディープラーニング(DL)ベースの手法は一般的だが専門知識のない実装は困難である。
この設定では、実際に有用な下流ユーティリティを実現することも困難である。
その結果、理論的な約束にもかかわらず、DP-SDGは教育における実践的な解決策には程遠いものとなった。
この問題に対処するために,(1)学習不要のLPMベースのDP-SDGを用いて合成データの共有を行い,(2)オンデマンドの実データ検証を行い,研究者がリモートで結果の検証を行うという,より実用的な2段階の手法を提案する。
この単純な手法はDP-SDGの専門知識のない個人データカストディアン向けに設計されている。
また、異なる学習者コホートからのデータを定期的に合成するマルチショット合成にも適用することができる。
本手法は,3年以上にわたって収集されたRWDを用いて一発合成と多発合成の両方で実験的に評価し,実際の研究者によるケーススタディを行った。
その結果,LDMをベースとしたDP-SDGは,DLベースのベースラインと同等に動作し,工学的コストを大幅に削減し,非DP検証は測定可能であるが,適度なプライバシリークを引き起こすことがわかった。
それにもかかわらず、このケーススタディでは、合成結果の36%が実際のデータで検証されていると報告されている。
本論文は,リスク軽減とてんかんの精度の課題を浮き彫りにしながら,教育的RWDを共有するための実践的手法を提供する。
関連論文リスト
- Cyclic Adaptive Private Synthesis for Sharing Real-World Data in Education [0.28675177318965034]
デジタル技術は、教育における実世界のデータ量(RWD)を大幅に増加させてきた。
これらのデータは、学習分析(LA)を前進させる重要な機会を提供するが、研究の二次的利用はプライバシーの懸念によって制限されている。
異なるプライベートな合成データ生成は、機密データを共有するためのゴールドスタンダードのアプローチと見なされている。
論文 参考訳(メタデータ) (2026-02-09T06:09:18Z) - Differentially Private Linear Regression and Synthetic Data Generation with Statistical Guarantees [41.99844472131922]
社会科学では、小規模から中規模のデータセットは一般的であり、線形回帰(LR)は標準的である。
プライバシーに配慮した設定では、多くの研究は微分プライベート(DP)LRに焦点を当てているが、主に不確かさの定量化に限定した点推定に重点を置いている。
論文 参考訳(メタデータ) (2025-10-19T19:30:41Z) - Unlocking Post-hoc Dataset Inference with Synthetic Data [11.886166976507711]
トレーニングデータセットは、データ所有者の知的財産権を尊重することなく、しばしばインターネットから取り除かれる。
推論(DI)は、被疑者データセットがトレーニングに使用されたかどうかを特定することで潜在的な治療を提供する。
既存のDIメソッドでは、妥協したデータセットの分布と密接に一致するトレーニングを欠くために、プライベートな設定を必要とします。
本研究では,必要なホールドアウト集合を合成的に生成することで,この問題に対処する。
論文 参考訳(メタデータ) (2025-06-18T08:46:59Z) - DACL-RAG: Data Augmentation Strategy with Curriculum Learning for Retrieval-Augmented Generation [54.26665681604041]
DACL-RAGは多段階データ拡張戦略と多段階学習パラダイムを組み合わせた多段階RAGトレーニングフレームワークである。
我々のフレームワークは、4つのオープンドメインQAデータセットで一貫した有効性を示し、複数の高度なメソッドに対して2%から4%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-05-15T16:53:04Z) - LLM-itation is the Sincerest Form of Data: Generating Synthetic Buggy Code Submissions for Computing Education [5.421088637597145]
大規模言語モデル(LLM)は、大規模でプライバシを保存する合成データを作成するための有望なアプローチを提供する。
本研究は,GPT-4oを用いた導入プログラミング演習のための合成バグギーコード生成について検討する。
合成データと実生データ間のテストケース故障の分布を比較し,実生データを模倣した合成データの精度を解析した。
論文 参考訳(メタデータ) (2024-11-01T00:24:59Z) - MergeOcc: Bridge the Domain Gap between Different LiDARs for Robust Occupancy Prediction [8.993992124170624]
MergeOccは、複数のデータセットを活用することで、異なるLiDARを同時に扱うように開発されている。
MergeOccの有効性は、自動運転車のための2つの顕著なデータセットの実験を通じて検証される。
論文 参考訳(メタデータ) (2024-03-13T13:23:05Z) - Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - Learning Mixtures of Linear Dynamical Systems [94.49754087817931]
そこで我々は,2段階のメタアルゴリズムを開発し,各基底構造LPSモデルを誤り$tildeO(sqrtd/T)$.sqrtd/T)まで効率的に復元する。
提案手法の有効性を検証し,数値実験による理論的研究を検証する。
論文 参考訳(メタデータ) (2022-01-26T22:26:01Z) - Dynamic Network-Assisted D2D-Aided Coded Distributed Learning [59.29409589861241]
本稿では,デバイス間のロードバランシングのための新しいデバイス・ツー・デバイス(D2D)支援型符号化学習手法(D2D-CFL)を提案する。
最小処理時間を達成するための最適圧縮率を導出し、収束時間との接続を確立する。
提案手法は,ユーザが継続的にトレーニングデータを生成するリアルタイム協調アプリケーションに有用である。
論文 参考訳(メタデータ) (2021-11-26T18:44:59Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - An Online Method for A Class of Distributionally Robust Optimization
with Non-Convex Objectives [54.29001037565384]
本稿では,オンライン分散ロバスト最適化(DRO)のクラスを解決するための実用的なオンライン手法を提案する。
本研究は,ネットワークの堅牢性向上のための機械学習における重要な応用を実証する。
論文 参考訳(メタデータ) (2020-06-17T20:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。