論文の概要: Evaluating Differentially Private Generation of Domain-Specific Text
- arxiv url: http://arxiv.org/abs/2508.20452v1
- Date: Thu, 28 Aug 2025 05:57:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.057873
- Title: Evaluating Differentially Private Generation of Domain-Specific Text
- Title(参考訳): ドメイン特化テキストの個人差分生成の評価
- Authors: Yidan Sun, Viktor Schlegel, Srinivasan Nandakumar, Iqra Zahid, Yuping Wu, Warren Del-Pinto, Goran Nenadic, Siew-Kei Lam, Jie Zhang, Anil A Bharath,
- Abstract要約: 差分プライバシー保証の下で生成されたテキストデータセットの有用性と忠実度を体系的に評価するための統一ベンチマークを導入する。
ドメイン固有の5つのデータセットにまたがって、最先端のプライバシ保存手法を評価する。
- 参考スコア(独自算出の注目度): 33.72321050465059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI offers transformative potential for high-stakes domains such as healthcare and finance, yet privacy and regulatory barriers hinder the use of real-world data. To address this, differentially private synthetic data generation has emerged as a promising alternative. In this work, we introduce a unified benchmark to systematically evaluate the utility and fidelity of text datasets generated under formal Differential Privacy (DP) guarantees. Our benchmark addresses key challenges in domain-specific benchmarking, including choice of representative data and realistic privacy budgets, accounting for pre-training and a variety of evaluation metrics. We assess state-of-the-art privacy-preserving generation methods across five domain-specific datasets, revealing significant utility and fidelity degradation compared to real data, especially under strict privacy constraints. These findings underscore the limitations of current approaches, outline the need for advanced privacy-preserving data sharing methods and set a precedent regarding their evaluation in realistic scenarios.
- Abstract(参考訳): ジェネレーティブAIは、ヘルスケアやファイナンスといった高度な領域に対して、変革的なポテンシャルを提供するが、プライバシと規制の障壁は、現実世界のデータの使用を妨げる。
これを解決するために、分別的にプライベートな合成データ生成が有望な代替手段として登場した。
本研究では,形式的微分プライバシ(DP)保証の下で生成されたテキストデータセットの有用性と忠実度を体系的に評価するための統一ベンチマークを導入する。
私たちのベンチマークでは、代表データの選択や現実的なプライバシ予算、事前トレーニングの会計、さまざまな評価指標など、ドメイン固有のベンチマークにおける重要な課題に対処しています。
我々は、5つのドメイン固有のデータセットにわたる最先端のプライバシ保存手法を評価し、特に厳密なプライバシ制約の下で、実際のデータと比較すると、実用性と忠実度が著しく低下していることを明らかにする。
これらの知見は、現在のアプローチの限界を明らかにし、高度なプライバシー保護データ共有方法の必要性を概説し、現実的なシナリオにおけるそれらの評価に関する前例を定めている。
関連論文リスト
- Generating Synthetic Data with Formal Privacy Guarantees: State of the Art and the Road Ahead [7.410975558116122]
プライバシを保存する合成データは、高領域における分離されたデータを活用するための有望なソリューションを提供する。
本調査では, 生成モデルと差分プライバシの理論的基礎を概説し, 現状の手法を概観する。
調査の結果は、未確認のプライバシー漏洩、正式な保証の実証的検証の不十分、現実的なベンチマークの重大な欠陥など、重要な課題を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-26T16:06:33Z) - An applied Perspective: Estimating the Differential Identifiability Risk of an Exemplary SOEP Data Set [2.66269503676104]
基本的統計的クエリの集合に対して,リスクメトリックを効率的に計算する方法を示す。
実世界の科学的データセットに基づいた実証分析は、現実的な条件下でのリスクの計算方法に関する知識を拡大します。
論文 参考訳(メタデータ) (2024-07-04T17:50:55Z) - Collection, usage and privacy of mobility data in the enterprise and public administrations [55.2480439325792]
個人のプライバシーを守るためには、匿名化などのセキュリティ対策が必要である。
本研究では,現場における実践の洞察を得るために,専門家によるインタビューを行った。
我々は、一般的には最先端の差分プライバシー基準に準拠しない、使用中のプライバシー強化手法を調査した。
論文 参考訳(メタデータ) (2024-07-04T08:29:27Z) - A Summary of Privacy-Preserving Data Publishing in the Local Setting [0.6749750044497732]
統計開示制御は、機密情報を匿名化して暴露するリスクを最小限にすることを目的としている。
マイクロデータの復号化に使用される現在のプライバシ保存技術について概説し、様々な開示シナリオに適したプライバシ対策を掘り下げ、情報損失と予測性能の指標を評価する。
論文 参考訳(メタデータ) (2023-12-19T04:23:23Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Private Domain Adaptation from a Public Source [48.83724068578305]
我々は、公開ラベル付きデータを持つソースドメインから、未ラベル付きプライベートデータを持つターゲットドメインへの適応のための差分プライベート離散性に基づくアルゴリズムを設計する。
我々の解は、Frank-WolfeとMirror-Descentアルゴリズムのプライベートな変種に基づいている。
論文 参考訳(メタデータ) (2022-08-12T06:52:55Z) - Data-driven Regularized Inference Privacy [33.71757542373714]
データを衛生化するためのデータ駆動推論プライバシ保護フレームワークを提案する。
我々は変分法に基づく推論プライバシ・フレームワークを開発する。
プライバシー基準を推定するための実証的手法を提案する。
論文 参考訳(メタデータ) (2020-10-10T08:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。