Fugu-MT 論文翻訳(概要): Are Data Experts Buying into Differentially Private Synthetic Data? Gathering Community Perspectives

論文の概要: Are Data Experts Buying into Differentially Private Synthetic Data? Gathering Community Perspectives

arxiv url: http://arxiv.org/abs/2412.13030v1
Date: Tue, 17 Dec 2024 15:50:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-18 17:09:38.77414
Title: Are Data Experts Buying into Differentially Private Synthetic Data? Gathering Community Perspectives
Title（参考訳）: データエキスパートは、差別的にプライベートな合成データを購入するか?
Authors: Lucas Rosenblatt, Bill Howe, Julia Stoyanovich,
Abstract要約: アメリカ合衆国では、差分プライバシー(DP)がプライバシ保護データ分析の技術的運用の主流となっている。本研究はDPメカニズムの1つのクラスであるプライベートデータシンセサイザーについて質的に検討する。
参考スコア（独自算出の注目度）: 14.736115103446101
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Data privacy is a core tenet of responsible computing, and in the United States, differential privacy (DP) is the dominant technical operationalization of privacy-preserving data analysis. With this study, we qualitatively examine one class of DP mechanisms: private data synthesizers. To that end, we conducted semi-structured interviews with data experts: academics and practitioners who regularly work with data. Broadly, our findings suggest that quantitative DP benchmarks must be grounded in practitioner needs, while communication challenges persist. Participants expressed a need for context-aware DP solutions, focusing on parity between research outcomes on real and synthetic data. Our analysis led to three recommendations: (1) improve existing insufficient sanitized benchmarks; successful DP implementations require well-documented, partner-vetted use cases, (2) organizations using DP synthetic data should publish discipline-specific standards of evidence, and (3) tiered data access models could allow researchers to gradually access sensitive data based on demonstrated competence with high-privacy, low-fidelity synthetic data.
Abstract（参考訳）: データプライバシは責任あるコンピューティングのコアテットであり、米国では、差分プライバシ(DP)がプライバシを保存するデータ分析における主要な技術的運用である。本研究では,DPメカニズムの1つのクラスであるプライベートデータシンセサイザーについて質的に検討する。そのために、定期的にデータを扱う学者や実践者といったデータ専門家と半構造化インタビューを行った。この結果から,定量的DPベンチマークは実践者のニーズに根ざしたものでなければならないことが示唆された。参加者は、実データと合成データにおける研究結果の同等性に着目した、文脈対応のDPソリューションの必要性を示した。分析の結果,(1) 既存の衛生化ベンチマークの改善,(2) DP 実装の成功には,十分に文書化された,パートナーが審査したユースケースが必要,(2) DP 合成データを用いた組織は,証拠の規律固有の基準を公表する必要がある,(3) 階層化されたデータアクセスモデルにより,高民権・低忠実な合成データによる実証能力に基づいて,研究者が徐々にセンシティブなデータにアクセスできるようになる,という3つの推奨点が得られた。

関連論文リスト

A Survey on Tabular Data Generation: Utility, Alignment, Fidelity, Privacy, and Beyond [53.56796220109518]
異なるユースケースは、実際に有用な異なる要件を満たすために合成データを要求する。合成データの実用性、合成データのドメイン固有の知識との整合性、実際のデータ分布と比較しての合成データ分布の統計的忠実度、プライバシ保護能力の4つの要件をレビューする。今後の分野の方向性と、現在の評価方法を改善する機会について論じる。
論文参考訳（メタデータ） (2025-03-07T21:47:11Z)
SafeSynthDP: Leveraging Large Language Models for Privacy-Preserving Synthetic Data Generation Using Differential Privacy [0.0]
差分プライバシー(DP)機構を用いた合成データセットを生成するための大規模言語モデル(Ms)の能力について検討する。提案手法では,ラプラス分布やガウス分布を含むDPベースのノイズ注入法をデータ生成プロセスに組み込む。次に、これらのDP強化合成データセットの有用性を、トレーニングされたMLモデルの性能と、元のデータでトレーニングされたモデルとを比較して評価する。
論文参考訳（メタデータ） (2024-12-30T01:10:10Z)
Second FRCSyn-onGoing: Winning Solutions and Post-Challenge Analysis to Improve Face Recognition with Synthetic Data [104.30479583607918]
第2回FRCSyn-onGoingチャレンジは、CVPR 2024で開始された第2回顔認識チャレンジ(FRCSyn)に基づいている。我々は、顔認識における現在の課題を解決するために、個々のデータと実際のデータの組み合わせの両方で合成データの利用を検討することに重点を置いている。
論文参考訳（メタデータ） (2024-12-02T11:12:01Z)
Evaluating Differentially Private Synthetic Data Generation in High-Stakes Domains [9.123834467375532]
実データの代わりに、微分プライベート言語モデルから生成された合成データを用いて、高速領域におけるNLPの開発を容易にする可能性について検討する。以上の結果から,従来の簡易評価では,合成データの有用性,プライバシ,公平性を強調できなかったことが示唆された。
論文参考訳（メタデータ） (2024-10-10T19:31:02Z)
FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。 FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文参考訳（メタデータ） (2024-03-10T08:41:22Z)
Differentially Private Data Generation with Missing Data [25.242190235853595]
我々は、差分プライバシー(DP)合成データの問題点を、欠落した値で定式化する。本稿では,合成データの有効性を大幅に向上させる3つの効果的な適応戦略を提案する。全体として、この研究は、プライベートな合成データ生成アルゴリズムを使用する際の課題と機会をより深く理解することに貢献している。
論文参考訳（メタデータ） (2023-10-17T19:41:54Z)
A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文参考訳（メタデータ） (2023-09-27T14:38:16Z)
Stop Uploading Test Data in Plain Text: Practical Strategies for Mitigating Data Contamination by Evaluation Benchmarks [70.39633252935445]
データ汚染は、大規模な自動クロールコーパスで事前訓練されたモデルの台頭によって、普及し、課題となっている。クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても汚染を検出するのは簡単ではない。 1)公開するテストデータを公開鍵で暗号化し,デリバティブ配信を許可する,(2)クローズドAPI保持者からの要求トレーニング排他的コントロールを許可する,(2)評価を拒否してテストデータを保護する,(3)インターネット上のソリューションで表示されるデータを避け,インターネット由来のWebページコンテキストを解放する,という3つの方法を提案する。
論文参考訳（メタデータ） (2023-05-17T12:23:38Z)
Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文参考訳（メタデータ） (2023-04-07T16:38:40Z)
Don't Look at the Data! How Differential Privacy Reconfigures the Practices of Data Science [0.0]
差別化プライバシ(DP)は,オープンアクセスとともにプライバシを提供する,有望な方法のひとつだ。我々は、DPのエキスパートでない19人のデータ実践者とのインタビューを行う。 DPはセンシティブなデータセットへの広範なアクセスを提供すると約束しているが、データサイエンスワークフローのすべてのステージに課題も導入している。
論文参考訳（メタデータ） (2023-02-23T04:28:14Z)
DP2-Pub: Differentially Private High-Dimensional Data Publication with Invariant Post Randomization [58.155151571362914]
本稿では,2つのフェーズで動作する差分プライベートな高次元データパブリッシング機構(DP2-Pub)を提案する。属性をクラスタ内凝集度の高い低次元クラスタに分割し、クラスタ間の結合度を低くすることで、適切なプライバシ予算を得ることができる。また、DP2-Pubメカニズムを、ローカルの差分プライバシーを満たす半正直なサーバでシナリオに拡張します。
論文参考訳（メタデータ） (2022-08-24T17:52:43Z)
Fidelity and Privacy of Synthetic Medical Data [0.0]
医療記録のデジタル化は、新時代のビッグデータから臨床科学へとつながった。個々のレベルの医療データを共有する必要性は増え続けており、これ以上緊急ではない。ビッグデータの利用に対する熱意は、患者の自律性とプライバシに対する完全な適切な懸念によって誘惑された。
論文参考訳（メタデータ） (2021-01-18T23:01:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。