論文の概要: Aim High, Stay Private: Differentially Private Synthetic Data Enables Public Release of Behavioral Health Information with High Utility
- arxiv url: http://arxiv.org/abs/2507.02971v1
- Date: Mon, 30 Jun 2025 15:58:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.48554
- Title: Aim High, Stay Private: Differentially Private Synthetic Data Enables Public Release of Behavioral Health Information with High Utility
- Title(参考訳): Aim High, Stay Private: Differentially Private Synthetic Dataは、高い実用性を備えた行動保健情報の公開を可能にする
- Authors: Mohsen Ghasemizade, Juniper Lovato, Christopher M. Danforth, Peter Sheridan Dodds, Laura S. P. Bloomfield, Matthew Price, Team LEMURS, Joseph P. Near,
- Abstract要約: 差別化プライバシ(DP)は、再識別リスクに対する正式な保証を提供する。
我々は、リングスタディ(LEMURS)を用いて測定されたライブ体験の第1相のDP合成データを生成する。
LEMURSデータセットの実際の使用状況から情報を得たフレームワークを用いて,合成データの有用性を評価する。
- 参考スコア(独自算出の注目度): 2.1715431485081593
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Sharing health and behavioral data raises significant privacy concerns, as conventional de-identification methods are susceptible to privacy attacks. Differential Privacy (DP) provides formal guarantees against re-identification risks, but practical implementation necessitates balancing privacy protection and the utility of data. We demonstrate the use of DP to protect individuals in a real behavioral health study, while making the data publicly available and retaining high utility for downstream users of the data. We use the Adaptive Iterative Mechanism (AIM) to generate DP synthetic data for Phase 1 of the Lived Experiences Measured Using Rings Study (LEMURS). The LEMURS dataset comprises physiological measurements from wearable devices (Oura rings) and self-reported survey data from first-year college students. We evaluate the synthetic datasets across a range of privacy budgets, epsilon = 1 to 100, focusing on the trade-off between privacy and utility. We evaluate the utility of the synthetic data using a framework informed by actual uses of the LEMURS dataset. Our evaluation identifies the trade-off between privacy and utility across synthetic datasets generated with different privacy budgets. We find that synthetic data sets with epsilon = 5 preserve adequate predictive utility while significantly mitigating privacy risks. Our methodology establishes a reproducible framework for evaluating the practical impacts of epsilon on generating private synthetic datasets with numerous attributes and records, contributing to informed decision-making in data sharing practices.
- Abstract(参考訳): 健康データと行動データの共有は、従来の非識別手法がプライバシー攻撃の影響を受けやすいため、重要なプライバシー上の懸念を引き起こす。
差別化プライバシ(DP)は、再識別リスクに対する正式な保証を提供するが、実際の実装では、プライバシ保護とデータの有用性のバランスをとる必要がある。
我々は、実際の行動保健研究において個人を保護するためにDPを使用することを実証し、データを公開し、データを下流のユーザに高効率に維持する。
適応反復機構 (AIM) を用いて, リングスタディ (LEMURS) を用いたライブ体験の第1相のDP合成データを生成する。
LEMURSデータセットは、ウェアラブルデバイス(オーラリング)からの生理的測定と、初年の大学生による自己報告された調査データを含む。
プライバシとユーティリティのトレードオフに焦点を当て,さまざまなプライバシ予算,すなわちepsilon = 1~100の合成データセットを評価した。
LEMURSデータセットの実際の使用状況から情報を得たフレームワークを用いて,合成データの有用性を評価する。
評価では、プライバシー予算の異なる合成データセット間のプライバシーとユーティリティのトレードオフを特定する。
エプシロン=5の合成データセットは、適切な予測ユーティリティを維持しつつ、プライバシーリスクを著しく軽減していることがわかった。
提案手法は,エプシロンが多くの属性と記録を持つプライベートな合成データセットの生成に与える影響を評価するための再現可能な枠組みを確立し,データ共有の実践における情報的意思決定に寄与する。
関連論文リスト
- Improving Noise Efficiency in Privacy-preserving Dataset Distillation [59.57846442477106]
本稿では,最適化からサンプリングを分離してコンバージェンスを向上し,信号品質を向上させる新しいフレームワークを提案する。
CIFAR-10では,従来の最先端手法の蒸留セットサイズを5分の1に減らして,クラス毎50イメージでtextbf10.0%,クラス毎50イメージで textbf8.3%向上した。
論文 参考訳(メタデータ) (2025-08-03T13:15:52Z) - PASS: Private Attributes Protection with Stochastic Data Substitution [46.38957234350463]
下流タスクのためのデータユーティリティを維持しながら、データからデータを取り除き、プライベート属性を保護するための様々な研究が提案されている。
PASSは、新しい損失関数で訓練された特定の確率に応じて、元のサンプルを別のサンプルに置換するように設計されている。
顔画像、人間の活動感覚信号、音声記録データセットなど、さまざまなモダリティのデータセットに対するPASSの包括的評価は、PASSの有効性と一般化性を裏付けるものである。
論文 参考訳(メタデータ) (2025-06-08T22:48:07Z) - A False Sense of Privacy: Evaluating Textual Data Sanitization Beyond Surface-level Privacy Leakage [77.83757117924995]
我々は、データリリース時の個人のプライバシーリスクを定量化するために、再識別攻撃を評価する新しいフレームワークを提案する。
本手法は, 衛生データから年齢や物質使用履歴などのセンシティブな属性を推測するために, 一見無害な補助情報を利用できることを示す。
論文 参考訳(メタデータ) (2025-04-28T01:16:27Z) - A Consensus Privacy Metrics Framework for Synthetic Data [13.972528788909813]
合成データのプライバシーを測定するための統合された標準は存在しない。
以上の結果から,現在の類似度指標は個人情報の開示を測ることが困難であることが示唆された。
異なるプライベートな合成データについては、ゼロに近いプライバシー予算は解釈できないと考えられていた。
論文 参考訳(メタデータ) (2025-03-06T21:19:02Z) - Contrastive Learning-Based privacy metrics in Tabular Synthetic Datasets [40.67424997797513]
合成データは、医療や金融などの分野におけるプライバシー強化技術(PET)として注目されている。
類似度に基づく手法は、トレーニングと合成データとの類似度のレベルを求めることを目的としている。
攻撃に基づく手法は、合成データセットに対する故意の攻撃を誘発する。
論文 参考訳(メタデータ) (2025-02-19T15:52:23Z) - SafeSynthDP: Leveraging Large Language Models for Privacy-Preserving Synthetic Data Generation Using Differential Privacy [0.0]
差分プライバシー(DP)機構を用いた合成データセットを生成するための大規模言語モデル(Ms)の能力について検討する。
提案手法では,ラプラス分布やガウス分布を含むDPベースのノイズ注入法をデータ生成プロセスに組み込む。
次に、これらのDP強化合成データセットの有用性を、トレーニングされたMLモデルの性能と、元のデータでトレーニングされたモデルとを比較して評価する。
論文 参考訳(メタデータ) (2024-12-30T01:10:10Z) - DP-CDA: An Algorithm for Enhanced Privacy Preservation in Dataset Synthesis Through Randomized Mixing [0.8739101659113155]
有効なデータパブリッシングアルゴリズムであるemphDP-CDAを導入する。
提案アルゴリズムは、クラス固有の方法でデータをランダムに混合し、プライバシー保証を確保するために慎重に調整されたランダム性を誘導することにより、合成データセットを生成する。
以上の結果から,DP-CDAを用いた合成データセットは,同一のプライバシー要件下であっても,従来のデータパブリッシングアルゴリズムで生成したデータセットよりも優れた実用性が得られることが示唆された。
論文 参考訳(メタデータ) (2024-11-25T06:14:06Z) - Collection, usage and privacy of mobility data in the enterprise and public administrations [55.2480439325792]
個人のプライバシーを守るためには、匿名化などのセキュリティ対策が必要である。
本研究では,現場における実践の洞察を得るために,専門家によるインタビューを行った。
我々は、一般的には最先端の差分プライバシー基準に準拠しない、使用中のプライバシー強化手法を調査した。
論文 参考訳(メタデータ) (2024-07-04T08:29:27Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Protect and Extend -- Using GANs for Synthetic Data Generation of
Time-Series Medical Records [1.9749268648715583]
本研究は、認知症患者の時系列合成医療記録を生成するために、現在最先端のGANベースの合成データ生成モデルと比較する。
本実験は,プライバシ保護に関する他のモデルよりも,プライバシ保護GAN(PPGAN)モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-21T10:24:34Z) - Scaling While Privacy Preserving: A Comprehensive Synthetic Tabular Data
Generation and Evaluation in Learning Analytics [0.412484724941528]
プライバシーは学習分析(LA)の進歩に大きな障害となり、匿名化の不十分さやデータ誤用といった課題を提示している。
合成データは潜在的な対策として現れ、堅牢なプライバシー保護を提供する。
LAの合成データに関する以前の研究では、プライバシーとデータユーティリティの微妙なバランスを評価するのに不可欠な、徹底的な評価が欠如していた。
論文 参考訳(メタデータ) (2024-01-12T20:27:55Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - How Do Input Attributes Impact the Privacy Loss in Differential Privacy? [55.492422758737575]
DPニューラルネットワークにおけるオブジェクトごとの規範と個人のプライバシ損失との関係について検討する。
プライバシ・ロス・インプット・サセプティビリティ(PLIS)と呼ばれる新しい指標を導入し、被験者のプライバシ・ロスを入力属性に適応させることを可能にした。
論文 参考訳(メタデータ) (2022-11-18T11:39:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。