論文の概要: Synthesizing Privacy-Preserving Text Data via Finetuning without Finetuning Billion-Scale LLMs
- arxiv url: http://arxiv.org/abs/2503.12347v1
- Date: Sun, 16 Mar 2025 04:00:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 16:00:09.091655
- Title: Synthesizing Privacy-Preserving Text Data via Finetuning without Finetuning Billion-Scale LLMs
- Title(参考訳): 数十億 LLM の微細化を伴わないファインタニングによるプライバシ保護テキストデータの合成
- Authors: Bowen Tan, Zheng Xu, Eric Xing, Zhiting Hu, Shanshan Wu,
- Abstract要約: そこで本稿では,広範囲なプロンプトエンジニアリングや数十億規模の微調整を伴わずに,プライバシ保護型合成データを生成する新しいフレームワークを提案する。
CTCLは、大規模公開データ上で、軽量な140M条件生成器とクラスタリングベースのトピックモデルを事前訓練する。
さらにプライベートドメインに適応するために、トピックモデルがDPヒストグラムを抽出する間、作成したジェネレータは、詳細なテキスト情報のためにプライベートデータに対してDP微調整される。
- 参考スコア(独自算出の注目度): 20.774525687291167
- License:
- Abstract: Synthetic data offers a promising path to train models while preserving data privacy. Differentially private (DP) finetuning of large language models (LLMs) as data generator is effective, but is impractical when computation resources are limited. Meanwhile, prompt-based methods such as private evolution, depend heavily on the manual prompts, and ineffectively use private information in their iterative data selection process. To overcome these limitations, we propose CTCL (Data Synthesis with ConTrollability and CLustering), a novel framework for generating privacy-preserving synthetic data without extensive prompt engineering or billion-scale LLM finetuning. CTCL pretrains a lightweight 140M conditional generator and a clustering-based topic model on large-scale public data. To further adapt to the private domain, the generator is DP finetuned on private data for fine-grained textual information, while the topic model extracts a DP histogram representing distributional information. The DP generator then samples according to the DP histogram to synthesize a desired number of data examples. Evaluation across five diverse domains demonstrates the effectiveness of our framework, particularly in the strong privacy regime. Systematic ablation validates the design of each framework component and highlights the scalability of our approach.
- Abstract(参考訳): 合成データは、データのプライバシを保持しながらモデルをトレーニングするための有望なパスを提供する。
大規模言語モデル(LLM)の差分プライベート(DP)ファインタニングは、データジェネレータとして有効であるが、計算資源が限られている場合には実用的ではない。
一方、プライベート進化のようなプロンプトベースの手法は、手動のプロンプトに大きく依存し、反復的なデータ選択プロセスでプライベート情報を効果的に利用しない。
このような制約を克服するために,大規模なエンジニアリングや数十億規模のLCM微調整を伴わずに,プライバシ保護のための新しいフレームワークであるCTCL(Data Synthesis with ConTrollability and Clustering)を提案する。
CTCLは、大規模公開データ上で、軽量な140M条件生成器とクラスタリングベースのトピックモデルを事前訓練する。
トピックモデルは、分布情報を表すDPヒストグラムを抽出するが、さらにプライベートドメインに適応するため、詳細なテキスト情報のためにプライベートデータにDP微調整を行う。
DPジェネレータはDPヒストグラムに従ってサンプルをサンプリングし、所望のデータ例を合成する。
5つの異なるドメインにわたる評価は、特に強力なプライバシー体制において、我々のフレームワークの有効性を示す。
システム的アブレーションは各フレームワークコンポーネントの設計を検証し、我々のアプローチのスケーラビリティを強調します。
関連論文リスト
- DP-2Stage: Adapting Language Models as Differentially Private Tabular Data Generators [47.86275136491794]
差分プライベートデータ生成のための2段階微調整フレームワークを提案する。
最初のステージでは、擬似データセットで非プライベートな微調整が行われ、続いてプライベートデータセットでDP微調整が行われる。
提案手法は,DPコンテキストにおいて直接微調整されたLCMと比較して,様々な設定やメトリクスにおける性能向上を図っている。
論文 参考訳(メタデータ) (2024-12-03T14:10:09Z) - Differentially Private Non Parametric Copulas: Generating synthetic data with non parametric copulas under privacy guarantees [0.0]
本研究は、差分プライバシーを取り入れた非パラメトリックコプラベース合成データ生成モデルDPNPCの強化に焦点を当てる。
DPNPCと他の3つのモデル(PrivBayes、DP-Copula、DP-Histogram)を比較し、プライバシ、ユーティリティ、実行時間を評価する。
論文 参考訳(メタデータ) (2024-09-27T10:18:14Z) - Private prediction for large-scale synthetic text generation [28.488459921169905]
大規模言語モデル(LLM)を用いた微分プライベートテキスト生成手法を提案する。
プライベートな予測フレームワークでは、差分プライバシー保証を満たすために出力された合成データのみを必要とする。
論文 参考訳(メタデータ) (2024-07-16T18:28:40Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Differentially Private Tabular Data Synthesis using Large Language Models [6.6376578496141585]
本稿ではDP-LLMTGenについて紹介する。
DP-LLMTGenは、2段階の微調整手順を用いて、センシティブなデータセットをモデル化する。
微調整LDMをサンプリングすることで合成データを生成する。
論文 参考訳(メタデータ) (2024-06-03T15:43:57Z) - Quantifying and Mitigating Privacy Risks for Tabular Generative Models [13.153278585144355]
生成モデルからの合成データは、プライバシを保存するデータ共有ソリューションとして現れる。
本稿では,DP-TLDM,差分プライベートタブララプレント拡散モデルを提案する。
DP-TLDMは, 平均データ類似度35%, 下流タスク用ユーティリティ15%, データの識別性50%で, 合成品質の向上を図っている。
論文 参考訳(メタデータ) (2024-03-12T17:27:49Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。