論文の概要: Cyclic Adaptive Private Synthesis for Sharing Real-World Data in Education
- arxiv url: http://arxiv.org/abs/2602.08299v1
- Date: Mon, 09 Feb 2026 06:09:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.083071
- Title: Cyclic Adaptive Private Synthesis for Sharing Real-World Data in Education
- Title(参考訳): 教育における実世界データ共有のための周期的適応型私的合成
- Authors: Hibiki Ito, Chia-Yu Hsu, Hiroaki Ogata,
- Abstract要約: デジタル技術は、教育における実世界のデータ量(RWD)を大幅に増加させてきた。
これらのデータは、学習分析(LA)を前進させる重要な機会を提供するが、研究の二次的利用はプライバシーの懸念によって制限されている。
異なるプライベートな合成データ生成は、機密データを共有するためのゴールドスタンダードのアプローチと見なされている。
- 参考スコア(独自算出の注目度): 0.28675177318965034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid adoption of digital technologies has greatly increased the volume of real-world data (RWD) in education. While these data offer significant opportunities for advancing learning analytics (LA), secondary use for research is constrained by privacy concerns. Differentially private synthetic data generation is regarded as the gold-standard approach to sharing sensitive data, yet studies on the private synthesis of educational data remain very scarce and rely predominantly on large, low-dimensional open datasets. Educational RWD, however, are typically high-dimensional and small in sample size, leaving the potential of private synthesis underexplored. Moreover, because educational practice is inherently iterative, data sharing is continual rather than one-off, making a traditional one-shot synthesis approach suboptimal. To address these challenges, we propose the Cyclic Adaptive Private Synthesis (CAPS) framework and evaluate it on authentic RWD. By iteratively sharing RWD, CAPS not only fosters open science, but also offers rich opportunities of design-based research (DBR), thereby amplifying the impact of LA. Our case study using actual RWD demonstrates that CAPS outperforms a one-shot baseline while highlighting challenges that warrant further investigation. Overall, this work offers a crucial first step towards privacy-preserving sharing of educational RWD and expands the possibilities for open science and DBR in LA.
- Abstract(参考訳): デジタル技術の急速な普及は、教育における実世界のデータ量(RWD)を大幅に増加させてきた。
これらのデータは、学習分析(LA)を前進させる重要な機会を提供するが、研究の二次的利用はプライバシーの懸念によって制限されている。
差分的なプライベートな合成データ生成は、機密データを共有するためのゴールドスタンダードのアプローチと見なされているが、教育データのプライベートな合成に関する研究は依然として少なく、大きな低次元のオープンデータセットに大きく依存している。
しかし、教育用RWDは通常、高次元でサンプルサイズが小さいため、プライベートシンセサイザーの可能性は未発見のままである。
さらに、教育実践は本質的に反復的であるため、データ共有はワンオフではなく継続的であり、従来のワンショット合成アプローチを準最適にしている。
これらの課題に対処するため,Cyclic Adaptive Private Synthesis (CAPS) フレームワークを提案し,それをRWDで評価する。
反復的にRWDを共有することによって、CAPSはオープンサイエンスを育むだけでなく、デザインベースリサーチ(DBR)の豊富な機会も提供し、LAの影響を増幅する。
実際のRWDを用いたケーススタディでは、CAPSは1ショットベースラインよりも優れており、さらなる調査を保証できる課題が強調されている。
全体として、この研究は教育用RWDのプライバシー保護のための重要な第一歩であり、LAにおけるオープンサイエンスとDBRの可能性を広げている。
関連論文リスト
- An Empirical Study of Validating Synthetic Data for Text-Based Person Retrieval [51.10419281315848]
我々は,テキストベース人検索(TBPR)研究における合成データの可能性を探るため,実証的研究を行った。
本稿では,自動プロンプト構築戦略を導入するクラス間画像生成パイプラインを提案する。
我々は、画像のさらなる編集に生成AIモデルを応用した、クラス内画像拡張パイプラインを開発する。
論文 参考訳(メタデータ) (2025-03-28T06:18:15Z) - Second FRCSyn-onGoing: Winning Solutions and Post-Challenge Analysis to Improve Face Recognition with Synthetic Data [104.30479583607918]
第2回FRCSyn-onGoingチャレンジは、CVPR 2024で開始された第2回顔認識チャレンジ(FRCSyn)に基づいている。
我々は、顔認識における現在の課題を解決するために、個々のデータと実際のデータの組み合わせの両方で合成データの利用を検討することに重点を置いている。
論文 参考訳(メタデータ) (2024-12-02T11:12:01Z) - Evaluating Differentially Private Synthetic Data Generation in High-Stakes Domains [9.123834467375532]
実データの代わりに、微分プライベート言語モデルから生成された合成データを用いて、高速領域におけるNLPの開発を容易にする可能性について検討する。
以上の結果から,従来の簡易評価では,合成データの有用性,プライバシ,公平性を強調できなかったことが示唆された。
論文 参考訳(メタデータ) (2024-10-10T19:31:02Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - To democratize research with sensitive data, we should make synthetic data more accessible [0.7770029179741429]
Erik-Jan van Kesteren氏は、プライバシ向上技術として合成データを広く採用するためには、データサイエンス研究コミュニティはより良い方法の開発から焦点を移すべきだ、と論じている。
論文 参考訳(メタデータ) (2024-04-26T09:18:54Z) - Scaling While Privacy Preserving: A Comprehensive Synthetic Tabular Data
Generation and Evaluation in Learning Analytics [0.412484724941528]
プライバシーは学習分析(LA)の進歩に大きな障害となり、匿名化の不十分さやデータ誤用といった課題を提示している。
合成データは潜在的な対策として現れ、堅牢なプライバシー保護を提供する。
LAの合成データに関する以前の研究では、プライバシーとデータユーティリティの微妙なバランスを評価するのに不可欠な、徹底的な評価が欠如していた。
論文 参考訳(メタデータ) (2024-01-12T20:27:55Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - Synthetic Data: Methods, Use Cases, and Risks [11.413309528464632]
研究コミュニティと業界の両方で勢いを増す可能性のある選択肢は、代わりに合成データを共有することだ。
我々は、合成データについて穏やかに紹介し、そのユースケース、未適応のプライバシー問題、そしてその固有の制限を効果的なプライバシー強化技術として論じます。
論文 参考訳(メタデータ) (2023-03-01T16:35:33Z) - Towards Realistic Single-Task Continuous Learning Research for NER [19.61159414320659]
本稿では、公開データセットの非現実的なデータ特性について論じ、現実的な単一タスク連続学習の課題について考察する。
我々は、既存の公開データセットからCL NERデータセットを構築し、コードとともに研究コミュニティにリリースする。
論文 参考訳(メタデータ) (2021-10-27T18:23:31Z) - GS-WGAN: A Gradient-Sanitized Approach for Learning Differentially
Private Generators [74.16405337436213]
我々は、GS-WGAN(Gradient-sanitized Wasserstein Generative Adrial Networks)を提案する。
GS-WGANは、厳格なプライバシー保証を備えた機密データの衛生的な形式での公開を可能にする。
このアプローチは、複数のメトリクスにわたる最先端のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2020-06-15T10:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。