論文の概要: With Privacy, Size Matters: On the Importance of Dataset Size in Differentially Private Text Rewriting
- arxiv url: http://arxiv.org/abs/2511.00487v1
- Date: Sat, 01 Nov 2025 10:41:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.802316
- Title: With Privacy, Size Matters: On the Importance of Dataset Size in Differentially Private Text Rewriting
- Title(参考訳): プライバシとサイズ - 差分的プライベートテキスト書き換えにおけるデータセットサイズの重要性について
- Authors: Stephen Meisenbacher, Florian Matthes,
- Abstract要約: 動的分割サイズを持つ大規模データセット上での試験を設計する。
プライバシーとユーティリティのトレードオフに対するデータセットサイズの増加の影響に注目します。
- 参考スコア(独自算出の注目度): 18.558227201723223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work in Differential Privacy with Natural Language Processing (DP NLP) has proposed numerous promising techniques in the form of text rewriting mechanisms. In the evaluation of these mechanisms, an often-ignored aspect is that of dataset size, or rather, the effect of dataset size on a mechanism's efficacy for utility and privacy preservation. In this work, we are the first to introduce this factor in the evaluation of DP text privatization, where we design utility and privacy tests on large-scale datasets with dynamic split sizes. We run these tests on datasets of varying size with up to one million texts, and we focus on quantifying the effect of increasing dataset size on the privacy-utility trade-off. Our findings reveal that dataset size plays an integral part in evaluating DP text rewriting mechanisms; additionally, these findings call for more rigorous evaluation procedures in DP NLP, as well as shed light on the future of DP NLP in practice and at scale.
- Abstract(参考訳): 自然言語処理による微分プライバシー(DP NLP)の最近の研究は、テキスト書き換え機構の形で多くの有望な技術を提案している。
これらのメカニズムの評価において、しばしば無視される側面は、データセットサイズまたはむしろ、ユーティリティとプライバシ保護のためのメカニズムの有効性に対するデータセットサイズの影響である。
本研究では,DPテキストの民営化の評価において,この因子を最初に導入する。
最大100万のテキストを持つさまざまなサイズのデータセット上でこれらのテストを実行し、プライバシとユーティリティのトレードオフに対するデータセットサイズの増加の影響の定量化に重点を置いています。
これらの結果から, DP NLP は, DP NLP における厳密な評価方法が求められ, DP NLP の実践的, 大規模化にともなって, データセットサイズが重要な役割を担っていることが明らかとなった。
関連論文リスト
- Disentangling Linguistic Features with Dimension-Wise Analysis of Vector Embeddings [0.0]
本稿では,異なる言語特性(LP)を符号化したベクトル埋め込みの特定の次元を明らかにするための枠組みを提案する。
本稿では,同義語,否定語,時制,量などの10つの重要な言語的特徴を分離するLinguistically Distinct Sentence Pairsデータセットを紹介する。
このデータセットを用いて,様々な手法を用いてBERT埋め込みを分析し,各LPの最も影響力のある次元を同定する。
我々の研究結果は、否定や極性といった特定の性質が特定の次元で強固に符号化されている一方で、同義語のような他の性質はより複雑なパターンを示すことを示している。
論文 参考訳(メタデータ) (2025-04-20T23:38:16Z) - Synthesizing Privacy-Preserving Text Data via Finetuning without Finetuning Billion-Scale LLMs [20.774525687291167]
合成データは、データのプライバシを保持しながらモデルをトレーニングするための有望なパスを提供する。
大規模言語モデル(LLM)をデータジェネレータとしてDP微調整することは効果的であるが、計算資源が限られている場合には実用的ではない。
我々は、広範囲なプロンプトエンジニアリングを伴わずに、プライバシを保存する合成データを生成するための新しいフレームワークであるCTCLを提案する。
論文 参考訳(メタデータ) (2025-03-16T04:00:32Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Differentially Private Attention Computation [10.765673861082094]
大規模な言語モデルでは、多くのシナリオにおいて機密情報や著作権情報を漏洩する可能性のある結果を生成することができる。
差分プライバシー保証を提供しながら注目行列を近似する新しい,効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-08T13:32:41Z) - Post-processing of Differentially Private Data: A Fairness Perspective [53.29035917495491]
本稿では,ポストプロセッシングが個人やグループに異なる影響を与えることを示す。
差分的にプライベートなデータセットのリリースと、ダウンストリームの決定にそのようなプライベートなデータセットを使用するという、2つの重要な設定を分析している。
それは、異なる公正度尺度の下で(ほぼ)最適である新しい後処理機構を提案する。
論文 参考訳(メタデータ) (2022-01-24T02:45:03Z) - Semantics-Preserved Distortion for Personal Privacy Protection in Information Management [65.08939490413037]
本稿では,意味的整合性を維持しつつテキストを歪ませる言語学的アプローチを提案する。
本稿では, 意味保存歪みの枠組みとして, 生成的アプローチと置換的アプローチの2つを提示する。
また、特定の医療情報管理シナリオにおけるプライバシ保護についても検討し、機密データの記憶を効果的に制限していることを示す。
論文 参考訳(メタデータ) (2022-01-04T04:01:05Z) - Partial sensitivity analysis in differential privacy [58.730520380312676]
それぞれの入力特徴が個人のプライバシ損失に与える影響について検討する。
プライベートデータベース上でのクエリに対する我々のアプローチを実験的に評価する。
また、合成データにおけるニューラルネットワークトレーニングの文脈における知見についても検討する。
論文 参考訳(メタデータ) (2021-09-22T08:29:16Z) - ADePT: Auto-encoder based Differentially Private Text Transformation [22.068984615657463]
自動エンコーダを用いたユーティリティ保存型差分プライベートテキスト変換アルゴリズムを提案する。
我々のアルゴリズムはテキストを変換し、攻撃に対して堅牢性を提供し、意味的品質の高い変換を生成する。
その結果,提案手法はMIA攻撃に対して有効であり,基礎となる変換プロセスの有用性は低下しないことがわかった。
論文 参考訳(メタデータ) (2021-01-29T23:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。