論文の概要: Privacy-Enhanced Database Synthesis for Benchmark Publishing
- arxiv url: http://arxiv.org/abs/2405.01312v1
- Date: Thu, 2 May 2024 14:20:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-03 16:24:55.034960
- Title: Privacy-Enhanced Database Synthesis for Benchmark Publishing
- Title(参考訳): ベンチマークパブリッシングのためのプライバシ強化データベース合成
- Authors: Yongrui Zhong, Yunqing Ge, Jianbin Qin, Shuyuan Zheng, Bo Tang, Yu-Xuan Qiu, Rui Mao, Ye Yuan, Makoto Onizuka, Chuan Xiao,
- Abstract要約: 差分プライバシーは、データ共有時のプライバシ保護の鍵となる方法となっているが、主に集約クエリや分類タスクにおけるエラーの最小化に焦点が当てられている。
本稿では,特にベンチマークのためのプライバシ保護データベースの作成について述べる。
PrivBenchは、データ分割とサンプリングにSPN(Sum-product Network)を使用して、プライバシを確保しながらデータ表現を強化する。
- 参考スコア(独自算出の注目度): 16.807486872855534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benchmarking is crucial for evaluating a DBMS, yet existing benchmarks often fail to reflect the varied nature of user workloads. As a result, there is increasing momentum toward creating databases that incorporate real-world user data to more accurately mirror business environments. However, privacy concerns deter users from directly sharing their data, underscoring the importance of creating synthesized databases for benchmarking that also prioritize privacy protection. Differential privacy has become a key method for safeguarding privacy when sharing data, but the focus has largely been on minimizing errors in aggregate queries or classification tasks, with less attention given to benchmarking factors like runtime performance. This paper delves into the creation of privacy-preserving databases specifically for benchmarking, aiming to produce a differentially private database whose query performance closely resembles that of the original data. Introducing PrivBench, an innovative synthesis framework, we support the generation of high-quality data that maintains privacy. PrivBench uses sum-product networks (SPNs) to partition and sample data, enhancing data representation while securing privacy. The framework allows users to adjust the detail of SPN partitions and privacy settings, crucial for customizing privacy levels. We validate our approach, which uses the Laplace and exponential mechanisms, in maintaining privacy. Our tests show that PrivBench effectively generates data that maintains privacy and excels in query performance, consistently reducing errors in query execution time, query cardinality, and KL divergence.
- Abstract(参考訳): ベンチマークはDBMSを評価する上で重要であるが、既存のベンチマークはユーザのワークロードのさまざまな性質を反映しないことが多い。
結果として、ビジネス環境をより正確に反映するために、現実世界のユーザデータを組み込んだデータベースを作成する動きが高まっている。
しかしながら、プライバシに関する懸念は、ユーザがデータを直接共有することを妨げ、プライバシ保護を優先するベンチマーク用の合成データベースを作成することの重要性を強調している。
差分プライバシーは、データ共有時のプライバシ保護の鍵となる方法となっているが、その焦点は、集約クエリや分類タスクにおけるエラーを最小限にすることであり、実行時パフォーマンスなどのベンチマーク要因にはあまり注意を払わない。
本稿では,ベンチマークに特化してプライバシ保護データベースを作成することを目的として,クエリ性能が元のデータとよく似ている差分プライベートデータベースを作成することを目的とする。
革新的な合成フレームワークであるPrivBenchを導入し、プライバシーを維持する高品質なデータの生成をサポートしています。
PrivBenchは、データ分割とサンプリングにSPN(Sum-product Network)を使用して、プライバシを確保しながらデータ表現を強化する。
このフレームワークでは、プライバシレベルをカスタマイズするために不可欠なSPNパーティションとプライバシ設定の詳細を調整できる。
プライバシの維持にLaplaceと指数的なメカニズムを用いるアプローチを検証する。
テストの結果,プライバシの維持とクエリ性能の向上,クエリ実行時間,クエリの精度,KLのばらつきといったエラーを一貫して低減するデータを生成することができた。
関連論文リスト
- Privacy-Preserving Federated Embedding Learning for Localized Retrieval-Augmented Generation [60.81109086640437]
我々はFedE4RAG(Federated Retrieval-Augmented Generation)と呼ばれる新しいフレームワークを提案する。
FedE4RAGはクライアント側RAG検索モデルの協調トレーニングを容易にする。
モデルパラメータの保護にフェデレート学習の準同型暗号化を適用する。
論文 参考訳(メタデータ) (2025-04-27T04:26:02Z) - LLM-TabFlow: Synthetic Tabular Data Generation with Inter-column Logical Relationship Preservation [49.898152180805454]
本研究は,合成表型データ生成におけるカラム間関係の保存について,初めて明示的に検討したものである。
LLM-TabFlowは複雑なカラム間関係と圧縮データをキャプチャする新しい手法であり、Score-based Diffusion を用いて遅延空間における圧縮データの分布をモデル化する。
LLM-TabFlowは、カラム間の関係を完全に保ちながら、データの忠実性、ユーティリティ、プライバシの最良のバランスを保ちながら、すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - Enhancing Feature-Specific Data Protection via Bayesian Coordinate Differential Privacy [55.357715095623554]
ローカル微分プライバシー(LDP)は、ユーザーが外部の関係者を信頼することなく、強力なプライバシー保証を提供する。
本稿では,ベイジアン・フレームワークであるベイジアン・コーディネート・ディファレンシャル・プライバシ(BCDP)を提案する。
論文 参考訳(メタデータ) (2024-10-24T03:39:55Z) - Privacy-Preserving Data Management using Blockchains [0.0]
データプロバイダは、データ使用量の変化によって、既存のプライバシの好みをコントロールし、更新する必要がある。
本稿では,データプロバイダがプライベートで機密性の高いデータを保存するためのブロックチェーンベースの方法論を提案する。
論文 参考訳(メタデータ) (2024-08-21T01:10:39Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Unified Mechanism-Specific Amplification by Subsampling and Group Privacy Amplification [54.1447806347273]
サブサンプリングによる増幅は、差分プライバシーを持つ機械学習の主要なプリミティブの1つである。
本稿では、メカニズム固有の保証を導出するための最初の一般的なフレームワークを提案する。
サブサンプリングが複数のユーザのプライバシに与える影響を分析する。
論文 参考訳(メタデータ) (2024-03-07T19:36:05Z) - TRUCE: Private Benchmarking to Prevent Contamination and Improve Comparative Evaluation of LLMs [12.839640915518443]
ベンチマークは LLM を評価するためのデファクト標準であり、その速度、複製性、低コストのためである。
最近の研究によると、今日入手可能なオープンソースベンチマークの大部分は、LLMに汚染されたり、リークされたりしている。
テストデータセットをプライベートに保持し、モデルにテストデータを公開せずにモデルを評価するソリューションであるPrivate Benchmarkingを提案する。
論文 参考訳(メタデータ) (2024-03-01T09:28:38Z) - PrivLM-Bench: A Multi-level Privacy Evaluation Benchmark for Language Models [42.20437015301152]
言語モデル(LM)のプライバシー漏洩を評価するベンチマークであるPrivLM-Benchを提案する。
DPパラメータのみを報告するのではなく、PrivLM-Benchは実際の使用中に無視された推論データのプライバシに光を当てる。
メインストリームLMのためのGLUEの3つのデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-11-07T14:55:52Z) - Privacy Preserving Large Language Models: ChatGPT Case Study Based Vision and Framework [6.828884629694705]
本稿では,LLMのプライバシ生成モデルであるPrivChatGPTという概念モデルを提案する。
PrivChatGPTは、データキュレーション/前処理中にユーザのプライバシを保護し、プライベートコンテキストの保存と大規模データのプライベートトレーニングプロセスという2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-19T06:55:13Z) - Libertas: Privacy-Preserving Collective Computation for Decentralised Personal Data Stores [18.91869691495181]
モジュールアーキテクチャであるLibertasを導入し、MPCとSolidのようなPSDを統合する。
我々は、全知的な視点から、個人ベースの、ユーザ中心の信頼とセキュリティへのパラダイムシフトを紹介します。
論文 参考訳(メタデータ) (2023-09-28T12:07:40Z) - A Randomized Approach for Tight Privacy Accounting [63.67296945525791]
推定検証リリース(EVR)と呼ばれる新しい差分プライバシーパラダイムを提案する。
EVRパラダイムは、まずメカニズムのプライバシパラメータを推定し、その保証を満たすかどうかを確認し、最後にクエリ出力を解放する。
我々の実証的な評価は、新たに提案されたEVRパラダイムが、プライバシ保護機械学習のユーティリティプライバシトレードオフを改善することを示している。
論文 参考訳(メタデータ) (2023-04-17T00:38:01Z) - How Do Input Attributes Impact the Privacy Loss in Differential Privacy? [55.492422758737575]
DPニューラルネットワークにおけるオブジェクトごとの規範と個人のプライバシ損失との関係について検討する。
プライバシ・ロス・インプット・サセプティビリティ(PLIS)と呼ばれる新しい指標を導入し、被験者のプライバシ・ロスを入力属性に適応させることを可能にした。
論文 参考訳(メタデータ) (2022-11-18T11:39:03Z) - Privacy-preserving Deep Learning based Record Linkage [14.755422488889824]
深層学習に基づく複数パーティのプライバシ保存記録リンクプロトコルを提案する。
このアプローチでは,各データベース所有者がまずローカルなディープラーニングモデルをトレーニングし,それをセキュアな環境にアップロードする。
グローバルモデルは、マッチと非マッチを区別するために、リンケージユニットによって使用される。
論文 参考訳(メタデータ) (2022-11-03T22:10:12Z) - Algorithms with More Granular Differential Privacy Guarantees [65.3684804101664]
我々は、属性ごとのプライバシー保証を定量化できる部分微分プライバシー(DP)について検討する。
本研究では,複数の基本データ分析および学習タスクについて検討し,属性ごとのプライバシパラメータが個人全体のプライバシーパラメータよりも小さい設計アルゴリズムについて検討する。
論文 参考訳(メタデータ) (2022-09-08T22:43:50Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Federated Learning with GAN-based Data Synthesis for Non-IID Clients [8.304185807036783]
フェデレートラーニング(FL)は、最近、プライバシ保護のためのコラボレーティブラーニングパラダイムとして人気を博している。
我々は,合成データを共有することで,この非IID課題を解決するために,SDA-FL(Synthetic Data Aided Federated Learning)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-11T11:43:25Z) - Reasoning over Public and Private Data in Retrieval-Based Systems [29.515915401413334]
State-of-the-artシステムは、回答を生成する前に、背景コーパスからユーザ質問に関連する情報を明示的に検索する。
今日の検索システムは、コーパスが完全にアクセス可能であることを前提としているが、ユーザーはプライベートデータを公開データをホストするエンティティに公開することを望んでいないことが多い。
PAIR(Public-PRIVATE AUTOREGRESSIVE Information RetriEVAL) のプライバシ・フレームワークを,複数のプライバシ・スコープにまたがる新規検索設定のために最初に定義する。
論文 参考訳(メタデータ) (2022-03-14T13:08:51Z) - Privately Publishable Per-instance Privacy [21.775752827149383]
客観的摂動によるパーソナライズドプライバシの損失を,pDP(Per-instance differential privacy)を用いてプライベートに共有する方法を検討する。
客観的な摂動によって学習したプライベートな経験的リスク最小化器をリリースする際のインスタンスごとのプライバシ損失を解析し、プライバシコストをほとんど必要とせず、個人的かつ正確にPDP損失を公表するための一連の方法を提案する。
論文 参考訳(メタデータ) (2021-11-03T15:17:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。