Fugu-MT 論文翻訳(概要): Synthetic Text Generation with Differential Privacy: A Simple and Practical Recipe

論文の概要: Synthetic Text Generation with Differential Privacy: A Simple and Practical Recipe

arxiv url: http://arxiv.org/abs/2210.14348v3
Date: Tue, 18 Jul 2023 14:20:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-19 19:35:46.811193
Title: Synthetic Text Generation with Differential Privacy: A Simple and Practical Recipe
Title（参考訳）: ディファレンシャルプライバシを用いた合成テキスト生成:単純かつ実用的なレシピ
Authors: Xiang Yue, Huseyin A. Inan, Xuechen Li, Girish Kumar, Julia McAnallen, Hoda Shajari, Huan Sun, David Levitan and Robert Sim
Abstract要約: テキスト領域におけるシンプルで実用的なレシピは、強力なプライバシー保護を備えた有用な合成テキストを生成するのに有効であることを示す。提案手法は,非私的テキストと実用性で競合する合成テキストを生成する。
参考スコア（独自算出の注目度）: 32.63295550058343
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Privacy concerns have attracted increasing attention in data-driven products due to the tendency of machine learning models to memorize sensitive training data. Generating synthetic versions of such data with a formal privacy guarantee, such as differential privacy (DP), provides a promising path to mitigating these privacy concerns, but previous approaches in this direction have typically failed to produce synthetic data of high quality. In this work, we show that a simple and practical recipe in the text domain is effective: simply fine-tuning a pretrained generative language model with DP enables the model to generate useful synthetic text with strong privacy protection. Through extensive empirical analyses on both benchmark and private customer data, we demonstrate that our method produces synthetic text that is competitive in terms of utility with its non-private counterpart, meanwhile providing strong protection against potential privacy leakages.
Abstract（参考訳）: プライバシに関する懸念は、センシティブなトレーニングデータを記憶する機械学習モデルの傾向により、データ駆動製品に注目が集まっている。差分プライバシー(DP)のような形式的なプライバシ保証を備えた合成データの生成は、これらのプライバシの懸念を軽減するための有望な経路を提供するが、この方向の以前のアプローチは通常、高品質な合成データの生成に失敗した。そこで本研究では,DPで事前学習した生成言語モデルを微調整することで,強力なプライバシ保護を備えた有用な合成テキストを生成できる,シンプルで実用的なテキスト領域のレシピが有効であることを示す。ベンチマークデータとプライベート顧客データの両方に関する広範な実証分析を通じて,本手法が非プライベートデータと実用性の観点から競合する合成テキストを生成する一方で,潜在的なプライバシー漏洩に対する強力な保護を提供することを示す。

関連論文リスト

Privacy-Preserving Model Transcription with Differentially Private Synthetic Distillation [67.76456940243294]
プライベートデータセットでトレーニングされたディープラーニングモデルは、プライバシー漏洩のリスクを引き起こす可能性がある。本稿では,データフリーモデル-モデル変換ソリューションであるエンフェプライシ保存モデル転写について述べる。
論文参考訳（メタデータ） (2026-01-27T01:51:35Z)
Empirical Evaluation of Structured Synthetic Data Privacy Metrics: Novel experimental framework [34.56525983543448]
プライバシー強化技術として、合成データ生成が注目を集めている。データプライバシの概念はいまだ解明されていないため、実践者が合成データが提供するプライバシ保護の程度を評価し、ベンチマークすることは困難である。
論文参考訳（メタデータ） (2025-12-18T08:09:28Z)
How to DP-fy Your Data: A Practical Guide to Generating Synthetic Data With Differential Privacy [52.00934156883483]
Differential Privacy(DP)は、情報漏洩を推論し、制限するフレームワークである。 Differentially Private Synthetic Dataは、ソースデータの全体的なトレンドを保存する合成データを指す。
論文参考訳（メタデータ） (2025-12-02T21:14:39Z)
Privacy-Aware In-Context Learning for Large Language Models [12.605629953620495]
大型言語モデル(LLM)は、機密情報の潜在的な暴露によるプライバシー上の懸念を提起する。プライバシー保証の強い高品質な合成テキストを生成するための,新たなプライベートな予測フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-17T01:50:32Z)
Synthetic Data Generation and Differential Privacy using Tensor Networks' Matrix Product States (MPS) [33.032422801043495]
マトリックス製品状態(MPS)を用いたプライバシー保護のための高品質な合成データ生成手法を提案する。我々は,MPSベースの生成モデルをCTGAN,VAE,PrivBayesといった最先端モデルと比較した。以上の結果から,MPSは特に厳格なプライバシー制約の下で,従来のモデルよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2025-08-08T12:14:57Z)
SMOTE-DP: Improving Privacy-Utility Tradeoff with Synthetic Data [13.699107354397286]
合成データ生成の適切なメカニズムにより、大きなユーティリティ損失を伴わずに、強力なプライバシ保護を実現することができることを示す。我々は,このSMOTE-DP技術が,堅牢なプライバシ保護を保証するだけでなく,下流学習タスクにおいて有効性を維持する合成データを生成することを理論的および実証的な実証を通じて証明した。
論文参考訳（メタデータ） (2025-06-02T17:27:10Z)
Synthetic Data Privacy Metrics [2.1213500139850017]
我々は、敵攻撃のシミュレーションを含む人気のある指標の長所と短所を概観する。また、生成モデルを修正して、作成するデータのプライバシを高めるための現在のベストプラクティスについてもレビューします。
論文参考訳（メタデータ） (2025-01-07T17:02:33Z)
SafeSynthDP: Leveraging Large Language Models for Privacy-Preserving Synthetic Data Generation Using Differential Privacy [0.0]
差分プライバシー(DP)機構を用いた合成データセットを生成するための大規模言語モデル(Ms)の能力について検討する。提案手法では,ラプラス分布やガウス分布を含むDPベースのノイズ注入法をデータ生成プロセスに組み込む。次に、これらのDP強化合成データセットの有用性を、トレーニングされたMLモデルの性能と、元のデータでトレーニングされたモデルとを比較して評価する。
論文参考訳（メタデータ） (2024-12-30T01:10:10Z)
Evaluating Differentially Private Synthetic Data Generation in High-Stakes Domains [9.123834467375532]
実データの代わりに、微分プライベート言語モデルから生成された合成データを用いて、高速領域におけるNLPの開発を容易にする可能性について検討する。以上の結果から,従来の簡易評価では,合成データの有用性,プライバシ,公平性を強調できなかったことが示唆された。
論文参考訳（メタデータ） (2024-10-10T19:31:02Z)
Private prediction for large-scale synthetic text generation [28.488459921169905]
大規模言語モデル(LLM)を用いた微分プライベートテキスト生成手法を提案する。プライベートな予測フレームワークでは、差分プライバシー保証を満たすために出力された合成データのみを必要とする。
論文参考訳（メタデータ） (2024-07-16T18:28:40Z)
Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。 RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文参考訳（メタデータ） (2024-06-20T22:53:09Z)
NAP^2: A Benchmark for Naturalness and Privacy-Preserving Text Rewriting by Learning from Human [55.20137833039499]
我々は,人間によって使用される2つの共通戦略を用いて,機密テキストの衛生化を提案する。我々は,クラウドソーシングと大規模言語モデルの利用を通じて,NAP2という最初のコーパスをキュレートする。
論文参考訳（メタデータ） (2024-06-06T05:07:44Z)
FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。 FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文参考訳（メタデータ） (2024-03-10T08:41:22Z)
Practical considerations on using private sampling for synthetic data [1.3654846342364308]
合成データ生成の異なるプライバシは、合成データを自由に使用しながらプライバシを保存する能力のために、多くの注目を集めている。プライベートサンプリングは、プライバシーと正確性のために厳密な境界を持つ微分プライベートな合成データを構築する最初のノイズフリー手法である。本稿では,プライベートサンプリングアルゴリズムの実装と,実例における制約の現実性について議論する。
論文参考訳（メタデータ） (2023-12-12T10:20:04Z)
PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文参考訳（メタデータ） (2023-10-03T22:37:01Z)
Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文参考訳（メタデータ） (2022-11-07T10:02:55Z)
Differentially Private Language Models for Secure Data Sharing [19.918137395199224]
本稿では,生成言語モデルを個別に学習し,その結果を抽出する方法について述べる。自然言語のプロンプトと新しいプロンプトミスマッチの損失を用いることで、高度に正確で流動的なテキストデータセットを作成できる。我々は、我々の合成データセットが元のデータから情報を漏らさず、言語質が高いことを示す徹底的な実験を行う。
論文参考訳（メタデータ） (2022-10-25T11:12:56Z)
Just Fine-tune Twice: Selective Differential Privacy for Large Language Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文参考訳（メタデータ） (2022-04-15T22:36:55Z)
PEARL: Data Synthesis via Private Embeddings and Adversarial Reconstruction Learning [1.8692254863855962]
本稿では, 深層生成モデルを用いたデータ・フレームワークを, 差分的にプライベートな方法で提案する。当社のフレームワークでは、センシティブなデータは、厳格なプライバシ保証をワンショットで行うことで衛生化されています。提案手法は理論的に性能が保証され,複数のデータセットに対する経験的評価により,提案手法が適切なプライバシーレベルで他の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2021-06-08T18:00:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。