論文の概要: Privacy-Enhanced Database Synthesis for Benchmark Publishing (Technical Report)
- arxiv url: http://arxiv.org/abs/2405.01312v2
- Date: Thu, 10 Apr 2025 14:53:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 15:59:14.226104
- Title: Privacy-Enhanced Database Synthesis for Benchmark Publishing (Technical Report)
- Title(参考訳): ベンチマークパブリッシングのためのプライバシ強化データベース合成(技術報告)
- Authors: Yunqing Ge, Jianbin Qin, Shuyuan Zheng, Yongrui Zhong, Bo Tang, Yu-Xuan Qiu, Rui Mao, Ye Yuan, Makoto Onizuka, Chuan Xiao,
- Abstract要約: 差分プライバシー(DP)に基づくデータ合成は、データ共有時のプライバシ保護の鍵となる方法となっている。
本稿では,ベンチマーク公開シナリオに特化して,差分プライベートなデータベース合成について述べる。
我々は、データ分散とクエリ実行時のパフォーマンスの両面において忠実性を維持する高品質なベンチマークデータベースの合成をサポートする。
- 参考スコア(独自算出の注目度): 16.807486872855534
- License:
- Abstract: Benchmarking is crucial for evaluating a DBMS, yet existing benchmarks often fail to reflect the varied nature of user workloads. As a result, there is increasing momentum toward creating databases that incorporate real-world user data to more accurately mirror business environments. However, privacy concerns deter users from directly sharing their data, underscoring the importance of creating synthesized databases for benchmarking that also prioritize privacy protection. Differential privacy (DP)-based data synthesis has become a key method for safeguarding privacy when sharing data, but the focus has largely been on minimizing errors in aggregate queries or downstream ML tasks, with less attention given to benchmarking factors like query runtime performance. This paper delves into differentially private database synthesis specifically for benchmark publishing scenarios, aiming to produce a synthetic database whose benchmarking factors closely resemble those of the original data. Introducing \textit{PrivBench}, an innovative synthesis framework based on sum-product networks (SPNs), we support the synthesis of high-quality benchmark databases that maintain fidelity in both data distribution and query runtime performance while preserving privacy. We validate that PrivBench can ensure database-level DP even when generating multi-relation databases with complex reference relationships. Our extensive experiments show that PrivBench efficiently synthesizes data that maintains privacy and excels in both data distribution similarity and query runtime similarity.
- Abstract(参考訳): ベンチマークはDBMSを評価する上で重要であるが、既存のベンチマークはユーザのワークロードのさまざまな性質を反映しないことが多い。
結果として、ビジネス環境をより正確に反映するために、現実世界のユーザデータを組み込んだデータベースを作成する動きが高まっている。
しかしながら、プライバシに関する懸念は、ユーザがデータを直接共有することを妨げ、プライバシ保護を優先するベンチマーク用の合成データベースを作成することの重要性を強調している。
差分プライバシ(DP)ベースのデータ合成は、データ共有時のプライバシ保護の鍵となる方法となっているが、集約クエリや下流MLタスクにおけるエラーの最小化に重点を置いている。
本稿では,ベンチマーク公開シナリオに特化して,ベンチマーク因子が元のデータと密接に類似する合成データベースを作成することを目的とした,差分プライベートなデータベース合成について述べる。
要約生成ネットワーク(SPN)に基づく革新的な合成フレームワークである‘textit{PrivBench} の導入により、プライバシを保ちながらデータ分散とクエリ実行時のパフォーマンスの両面で忠実性を維持する高品質なベンチマークデータベースの合成を支援する。
複雑な参照関係を持つマルチリレーショナルデータベースを生成しても,PrivBenchがデータベースレベルのDPを保証できることを検証する。
我々の広範な実験により、PrivBenchは、プライバシを維持するデータを効率的に合成し、データ分散の類似性とクエリランタイムの類似性の両方に優れています。
関連論文リスト
- Enhancing Feature-Specific Data Protection via Bayesian Coordinate Differential Privacy [55.357715095623554]
ローカル微分プライバシー(LDP)は、ユーザーが外部の関係者を信頼することなく、強力なプライバシー保証を提供する。
本稿では,ベイジアン・フレームワークであるベイジアン・コーディネート・ディファレンシャル・プライバシ(BCDP)を提案する。
論文 参考訳(メタデータ) (2024-10-24T03:39:55Z) - Privacy-Preserving Data Management using Blockchains [0.0]
データプロバイダは、データ使用量の変化によって、既存のプライバシの好みをコントロールし、更新する必要がある。
本稿では,データプロバイダがプライベートで機密性の高いデータを保存するためのブロックチェーンベースの方法論を提案する。
論文 参考訳(メタデータ) (2024-08-21T01:10:39Z) - Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - Unified Mechanism-Specific Amplification by Subsampling and Group Privacy Amplification [54.1447806347273]
サブサンプリングによる増幅は、差分プライバシーを持つ機械学習の主要なプリミティブの1つである。
本稿では、メカニズム固有の保証を導出するための最初の一般的なフレームワークを提案する。
サブサンプリングが複数のユーザのプライバシに与える影響を分析する。
論文 参考訳(メタデータ) (2024-03-07T19:36:05Z) - PrivLM-Bench: A Multi-level Privacy Evaluation Benchmark for Language Models [42.20437015301152]
言語モデル(LM)のプライバシー漏洩を評価するベンチマークであるPrivLM-Benchを提案する。
DPパラメータのみを報告するのではなく、PrivLM-Benchは実際の使用中に無視された推論データのプライバシに光を当てる。
メインストリームLMのためのGLUEの3つのデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-11-07T14:55:52Z) - Privacy Preserving Large Language Models: ChatGPT Case Study Based Vision and Framework [6.828884629694705]
本稿では,LLMのプライバシ生成モデルであるPrivChatGPTという概念モデルを提案する。
PrivChatGPTは、データキュレーション/前処理中にユーザのプライバシを保護し、プライベートコンテキストの保存と大規模データのプライベートトレーニングプロセスという2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-19T06:55:13Z) - A Randomized Approach for Tight Privacy Accounting [63.67296945525791]
推定検証リリース(EVR)と呼ばれる新しい差分プライバシーパラダイムを提案する。
EVRパラダイムは、まずメカニズムのプライバシパラメータを推定し、その保証を満たすかどうかを確認し、最後にクエリ出力を解放する。
我々の実証的な評価は、新たに提案されたEVRパラダイムが、プライバシ保護機械学習のユーティリティプライバシトレードオフを改善することを示している。
論文 参考訳(メタデータ) (2023-04-17T00:38:01Z) - How Do Input Attributes Impact the Privacy Loss in Differential Privacy? [55.492422758737575]
DPニューラルネットワークにおけるオブジェクトごとの規範と個人のプライバシ損失との関係について検討する。
プライバシ・ロス・インプット・サセプティビリティ(PLIS)と呼ばれる新しい指標を導入し、被験者のプライバシ・ロスを入力属性に適応させることを可能にした。
論文 参考訳(メタデータ) (2022-11-18T11:39:03Z) - Algorithms with More Granular Differential Privacy Guarantees [65.3684804101664]
我々は、属性ごとのプライバシー保証を定量化できる部分微分プライバシー(DP)について検討する。
本研究では,複数の基本データ分析および学習タスクについて検討し,属性ごとのプライバシパラメータが個人全体のプライバシーパラメータよりも小さい設計アルゴリズムについて検討する。
論文 参考訳(メタデータ) (2022-09-08T22:43:50Z) - Reasoning over Public and Private Data in Retrieval-Based Systems [29.515915401413334]
State-of-the-artシステムは、回答を生成する前に、背景コーパスからユーザ質問に関連する情報を明示的に検索する。
今日の検索システムは、コーパスが完全にアクセス可能であることを前提としているが、ユーザーはプライベートデータを公開データをホストするエンティティに公開することを望んでいないことが多い。
PAIR(Public-PRIVATE AUTOREGRESSIVE Information RetriEVAL) のプライバシ・フレームワークを,複数のプライバシ・スコープにまたがる新規検索設定のために最初に定義する。
論文 参考訳(メタデータ) (2022-03-14T13:08:51Z) - Privately Publishable Per-instance Privacy [21.775752827149383]
客観的摂動によるパーソナライズドプライバシの損失を,pDP(Per-instance differential privacy)を用いてプライベートに共有する方法を検討する。
客観的な摂動によって学習したプライベートな経験的リスク最小化器をリリースする際のインスタンスごとのプライバシ損失を解析し、プライバシコストをほとんど必要とせず、個人的かつ正確にPDP損失を公表するための一連の方法を提案する。
論文 参考訳(メタデータ) (2021-11-03T15:17:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。