論文の概要: Privasis: Synthesizing the Largest "Public" Private Dataset from Scratch
- arxiv url: http://arxiv.org/abs/2602.03183v1
- Date: Tue, 03 Feb 2026 06:54:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.296183
- Title: Privasis: Synthesizing the Largest "Public" Private Dataset from Scratch
- Title(参考訳): Privasis: Scratchから最大の"パブリック"プライベートデータセットを合成する
- Authors: Hyunwoo Kim, Niloofar Mireshghallah, Michael Duan, Rui Xin, Shuyue Stella Li, Jaehun Jung, David Acuna, Qi Pang, Hanshen Xiao, G. Edward Suh, Sewoong Oh, Yulia Tsvetkov, Pang Wei Koh, Yejin Choi,
- Abstract要約: 私たちはPrivasisを紹介します。Privasisは、スクラッチから完全に構築された最初の100万規模の完全合成データセットです。
既存のデータセットと比較すると、Privasisは質の高いマグニチュードスケールを提供する。
我々はPrivasisを利用して、テキストを分解してターゲット衛生に適用するパイプラインで、テキスト衛生のための並列コーパスを構築する。
- 参考スコア(独自算出の注目度): 101.49955223689268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research involving privacy-sensitive data has always been constrained by data scarcity, standing in sharp contrast to other areas that have benefited from data scaling. This challenge is becoming increasingly urgent as modern AI agents--such as OpenClaw and Gemini Agent--are granted persistent access to highly sensitive personal information. To tackle this longstanding bottleneck and the rising risks, we present Privasis (i.e., privacy oasis), the first million-scale fully synthetic dataset entirely built from scratch--an expansive reservoir of texts with rich and diverse private information--designed to broaden and accelerate research in areas where processing sensitive social data is inevitable. Compared to existing datasets, Privasis, comprising 1.4 million records, offers orders-of-magnitude larger scale with quality, and far greater diversity across various document types, including medical history, legal documents, financial records, calendars, and text messages with a total of 55.1 million annotated attributes such as ethnicity, date of birth, workplace, etc. We leverage Privasis to construct a parallel corpus for text sanitization with our pipeline that decomposes texts and applies targeted sanitization. Our compact sanitization models (<=4B) trained on this dataset outperform state-of-the-art large language models, such as GPT-5 and Qwen-3 235B. We plan to release data, models, and code to accelerate future research on privacy-sensitive domains and agents.
- Abstract(参考訳): プライバシに敏感なデータに関する研究は、データの不足によって常に制限されており、データスケーリングの恩恵を受けている他の分野とは対照的である。
OpenClawやGemini Agentのような現代のAIエージェントは、高度に機密性の高い個人情報への永続的なアクセスを許可されている。
この長期にわたるボトルネックとリスクの増大に対処するために、私たちはPrivasis(プライバシ・オアシス)を紹介します。これは、スクラッチから完全に構築された最初の100万規模の完全合成データセットです。
既存のデータセットと比較すると、Privasisは140万件のレコードで構成されており、医療史、法律文書、財務記録、カレンダー、テキストメッセージなど様々な種類の文書に、民族性、出生年月日、職場など、合計5510万件の注釈付き属性がある。
我々はPrivasisを利用して、テキストを分解してターゲット衛生に適用するパイプラインで、テキスト衛生のための並列コーパスを構築する。
GPT-5 や Qwen-3 235B といった最先端の大規模言語モデルよりも優れた結果を得た。
プライバシーに敏感なドメインやエージェントに関する今後の研究を加速するために、データ、モデル、コードをリリースする予定です。
関連論文リスト
- How to DP-fy Your Data: A Practical Guide to Generating Synthetic Data With Differential Privacy [52.00934156883483]
Differential Privacy(DP)は、情報漏洩を推論し、制限するフレームワークである。
Differentially Private Synthetic Dataは、ソースデータの全体的なトレンドを保存する合成データを指す。
論文 参考訳(メタデータ) (2025-12-02T21:14:39Z) - PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。
プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。
GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文 参考訳(メタデータ) (2024-08-29T17:58:38Z) - NAP^2: A Benchmark for Naturalness and Privacy-Preserving Text Rewriting by Learning from Human [56.46355425175232]
我々は,人間によって使用される2つの共通戦略を用いて,機密テキストの衛生化を提案する。
我々は,クラウドソーシングと大規模言語モデルの利用を通じて,NAP2という最初のコーパスをキュレートする。
匿名化に関する以前の研究と比較すると、人間に触発されたアプローチはより自然な書き直しをもたらす。
論文 参考訳(メタデータ) (2024-06-06T05:07:44Z) - Practical considerations on using private sampling for synthetic data [1.3654846342364308]
合成データ生成の異なるプライバシは、合成データを自由に使用しながらプライバシを保存する能力のために、多くの注目を集めている。
プライベートサンプリングは、プライバシーと正確性のために厳密な境界を持つ微分プライベートな合成データを構築する最初のノイズフリー手法である。
本稿では,プライベートサンプリングアルゴリズムの実装と,実例における制約の現実性について議論する。
論文 参考訳(メタデータ) (2023-12-12T10:20:04Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - More Data Types More Problems: A Temporal Analysis of Complexity,
Stability, and Sensitivity in Privacy Policies [0.0]
データブローカーとデータプロセッサは、消費者データを収集し、購入し、販売することで利益を得る、数十億ドル規模の産業の一部である。
しかし、データ収集業界には、どのような種類のデータが収集、使用、販売されているかを理解するのが難しくなる透明性がほとんどありません。
論文 参考訳(メタデータ) (2023-02-17T15:21:24Z) - Synthetic Text Generation with Differential Privacy: A Simple and
Practical Recipe [32.63295550058343]
テキスト領域におけるシンプルで実用的なレシピは、強力なプライバシー保護を備えた有用な合成テキストを生成するのに有効であることを示す。
提案手法は,非私的テキストと実用性で競合する合成テキストを生成する。
論文 参考訳(メタデータ) (2022-10-25T21:21:17Z) - You Are What You Write: Preserving Privacy in the Era of Large Language
Models [2.3431670397288005]
本稿では,様々な人気モデルを用いて,事前学習された表現に符号化された個人情報の範囲について,実証的研究を行う。
モデルの複雑さ,事前学習に使用するデータ量,およびデータ漏洩との間には,正の相関関係を示す。
論文 参考訳(メタデータ) (2022-04-20T11:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。