論文の概要: Privacy-Enhanced Database Synthesis for Benchmark Publishing
- arxiv url: http://arxiv.org/abs/2405.01312v1
- Date: Thu, 2 May 2024 14:20:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 16:24:55.034960
- Title: Privacy-Enhanced Database Synthesis for Benchmark Publishing
- Title(参考訳): ベンチマークパブリッシングのためのプライバシ強化データベース合成
- Authors: Yongrui Zhong, Yunqing Ge, Jianbin Qin, Shuyuan Zheng, Bo Tang, Yu-Xuan Qiu, Rui Mao, Ye Yuan, Makoto Onizuka, Chuan Xiao,
- Abstract要約: 差分プライバシーは、データ共有時のプライバシ保護の鍵となる方法となっているが、主に集約クエリや分類タスクにおけるエラーの最小化に焦点が当てられている。
本稿では,特にベンチマークのためのプライバシ保護データベースの作成について述べる。
PrivBenchは、データ分割とサンプリングにSPN(Sum-product Network)を使用して、プライバシを確保しながらデータ表現を強化する。
- 参考スコア(独自算出の注目度): 16.807486872855534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benchmarking is crucial for evaluating a DBMS, yet existing benchmarks often fail to reflect the varied nature of user workloads. As a result, there is increasing momentum toward creating databases that incorporate real-world user data to more accurately mirror business environments. However, privacy concerns deter users from directly sharing their data, underscoring the importance of creating synthesized databases for benchmarking that also prioritize privacy protection. Differential privacy has become a key method for safeguarding privacy when sharing data, but the focus has largely been on minimizing errors in aggregate queries or classification tasks, with less attention given to benchmarking factors like runtime performance. This paper delves into the creation of privacy-preserving databases specifically for benchmarking, aiming to produce a differentially private database whose query performance closely resembles that of the original data. Introducing PrivBench, an innovative synthesis framework, we support the generation of high-quality data that maintains privacy. PrivBench uses sum-product networks (SPNs) to partition and sample data, enhancing data representation while securing privacy. The framework allows users to adjust the detail of SPN partitions and privacy settings, crucial for customizing privacy levels. We validate our approach, which uses the Laplace and exponential mechanisms, in maintaining privacy. Our tests show that PrivBench effectively generates data that maintains privacy and excels in query performance, consistently reducing errors in query execution time, query cardinality, and KL divergence.
- Abstract(参考訳): ベンチマークはDBMSを評価する上で重要であるが、既存のベンチマークはユーザのワークロードのさまざまな性質を反映しないことが多い。
結果として、ビジネス環境をより正確に反映するために、現実世界のユーザデータを組み込んだデータベースを作成する動きが高まっている。
しかしながら、プライバシに関する懸念は、ユーザがデータを直接共有することを妨げ、プライバシ保護を優先するベンチマーク用の合成データベースを作成することの重要性を強調している。
差分プライバシーは、データ共有時のプライバシ保護の鍵となる方法となっているが、その焦点は、集約クエリや分類タスクにおけるエラーを最小限にすることであり、実行時パフォーマンスなどのベンチマーク要因にはあまり注意を払わない。
本稿では,ベンチマークに特化してプライバシ保護データベースを作成することを目的として,クエリ性能が元のデータとよく似ている差分プライベートデータベースを作成することを目的とする。
革新的な合成フレームワークであるPrivBenchを導入し、プライバシーを維持する高品質なデータの生成をサポートしています。
PrivBenchは、データ分割とサンプリングにSPN(Sum-product Network)を使用して、プライバシを確保しながらデータ表現を強化する。
このフレームワークでは、プライバシレベルをカスタマイズするために不可欠なSPNパーティションとプライバシ設定の詳細を調整できる。
プライバシの維持にLaplaceと指数的なメカニズムを用いるアプローチを検証する。
テストの結果,プライバシの維持とクエリ性能の向上,クエリ実行時間,クエリの精度,KLのばらつきといったエラーを一貫して低減するデータを生成することができた。
関連論文リスト
- Enhancing Feature-Specific Data Protection via Bayesian Coordinate Differential Privacy [55.357715095623554]
ローカル微分プライバシー(LDP)は、ユーザーが外部の関係者を信頼することなく、強力なプライバシー保証を提供する。
本稿では,ベイジアン・フレームワークであるベイジアン・コーディネート・ディファレンシャル・プライバシ(BCDP)を提案する。
論文 参考訳(メタデータ) (2024-10-24T03:39:55Z) - Privacy-Preserving Data Management using Blockchains [0.0]
データプロバイダは、データ使用量の変化によって、既存のプライバシの好みをコントロールし、更新する必要がある。
本稿では,データプロバイダがプライベートで機密性の高いデータを保存するためのブロックチェーンベースの方法論を提案する。
論文 参考訳(メタデータ) (2024-08-21T01:10:39Z) - Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - Unified Mechanism-Specific Amplification by Subsampling and Group Privacy Amplification [54.1447806347273]
サブサンプリングによる増幅は、差分プライバシーを持つ機械学習の主要なプリミティブの1つである。
本稿では、メカニズム固有の保証を導出するための最初の一般的なフレームワークを提案する。
サブサンプリングが複数のユーザのプライバシに与える影響を分析する。
論文 参考訳(メタデータ) (2024-03-07T19:36:05Z) - PrivLM-Bench: A Multi-level Privacy Evaluation Benchmark for Language Models [42.20437015301152]
言語モデル(LM)のプライバシー漏洩を評価するベンチマークであるPrivLM-Benchを提案する。
DPパラメータのみを報告するのではなく、PrivLM-Benchは実際の使用中に無視された推論データのプライバシに光を当てる。
メインストリームLMのためのGLUEの3つのデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-11-07T14:55:52Z) - Privacy Preserving Large Language Models: ChatGPT Case Study Based Vision and Framework [6.828884629694705]
本稿では,LLMのプライバシ生成モデルであるPrivChatGPTという概念モデルを提案する。
PrivChatGPTは、データキュレーション/前処理中にユーザのプライバシを保護し、プライベートコンテキストの保存と大規模データのプライベートトレーニングプロセスという2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-19T06:55:13Z) - A Randomized Approach for Tight Privacy Accounting [63.67296945525791]
推定検証リリース(EVR)と呼ばれる新しい差分プライバシーパラダイムを提案する。
EVRパラダイムは、まずメカニズムのプライバシパラメータを推定し、その保証を満たすかどうかを確認し、最後にクエリ出力を解放する。
我々の実証的な評価は、新たに提案されたEVRパラダイムが、プライバシ保護機械学習のユーティリティプライバシトレードオフを改善することを示している。
論文 参考訳(メタデータ) (2023-04-17T00:38:01Z) - How Do Input Attributes Impact the Privacy Loss in Differential Privacy? [55.492422758737575]
DPニューラルネットワークにおけるオブジェクトごとの規範と個人のプライバシ損失との関係について検討する。
プライバシ・ロス・インプット・サセプティビリティ(PLIS)と呼ばれる新しい指標を導入し、被験者のプライバシ・ロスを入力属性に適応させることを可能にした。
論文 参考訳(メタデータ) (2022-11-18T11:39:03Z) - Algorithms with More Granular Differential Privacy Guarantees [65.3684804101664]
我々は、属性ごとのプライバシー保証を定量化できる部分微分プライバシー(DP)について検討する。
本研究では,複数の基本データ分析および学習タスクについて検討し,属性ごとのプライバシパラメータが個人全体のプライバシーパラメータよりも小さい設計アルゴリズムについて検討する。
論文 参考訳(メタデータ) (2022-09-08T22:43:50Z) - Reasoning over Public and Private Data in Retrieval-Based Systems [29.515915401413334]
State-of-the-artシステムは、回答を生成する前に、背景コーパスからユーザ質問に関連する情報を明示的に検索する。
今日の検索システムは、コーパスが完全にアクセス可能であることを前提としているが、ユーザーはプライベートデータを公開データをホストするエンティティに公開することを望んでいないことが多い。
PAIR(Public-PRIVATE AUTOREGRESSIVE Information RetriEVAL) のプライバシ・フレームワークを,複数のプライバシ・スコープにまたがる新規検索設定のために最初に定義する。
論文 参考訳(メタデータ) (2022-03-14T13:08:51Z) - Privately Publishable Per-instance Privacy [21.775752827149383]
客観的摂動によるパーソナライズドプライバシの損失を,pDP(Per-instance differential privacy)を用いてプライベートに共有する方法を検討する。
客観的な摂動によって学習したプライベートな経験的リスク最小化器をリリースする際のインスタンスごとのプライバシ損失を解析し、プライバシコストをほとんど必要とせず、個人的かつ正確にPDP損失を公表するための一連の方法を提案する。
論文 参考訳(メタデータ) (2021-11-03T15:17:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。