論文の概要: A Systematic Exploration of Text Decomposition and Budget Distribution in Differentially Private Text Obfuscation
- arxiv url: http://arxiv.org/abs/2605.01065v1
- Date: Fri, 01 May 2026 20:00:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.562481
- Title: A Systematic Exploration of Text Decomposition and Budget Distribution in Differentially Private Text Obfuscation
- Title(参考訳): 個人用テキスト難読化におけるテキスト分解と予算分布の体系的探索
- Authors: Stephen Meisenbacher, Angelo Kleinert, Florian Matthes,
- Abstract要約: テキストをチャンクする異なる方法と$varepsilon$をこれらのチャンクに割り当てるテクニックを組み合わせる方法を示す。
われわれの実験によると、このような設計選択は非常に重要であり、たとえ同等のプライバシー予算であっても、どの方法が選択されたかによって、かなり異なる結果が得られる。
- 参考スコア(独自算出の注目度): 16.51235052027641
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of differentially private text obfuscation is to obfuscate, or "perturb", input texts with Differential Privacy (DP) guarantees, such that the private output texts are quantifiably indistinguishable from the originals. While perturbation at the word level is intuitive, meaningful text privatization happens on complete documents. Recent research has laid the groundwork for reasoning about privacy budget distribution, namely, how an overall $\varepsilon$ budget can be sensibly distributed among the component pieces of a text. We perform a systematic evaluation of multiple text decomposition and budget distribution techniques in the context of DP text obfuscation, testing how different methods for chunking texts can be combined with techniques for allocating $\varepsilon$ to these chunks. Our experiments reveal that such design choices are very important, as even with comparable privacy budgets, significantly different results can occur based on which methods are chosen. In this, we provide credible evidence of the feasibility of maximizing empirical trade-offs by optimizing DP obfuscation procedures.
- Abstract(参考訳): 異なるプライベートテキスト難読化の目標は、個人出力のテキストが元のテキストと定量的に区別できないように、差分プライバシ(DP)が保証される入力テキストを難読化("perturb")することである。
単語レベルでの摂動は直感的であるが、意味のあるテキストの民営化は完全な文書で起こる。
最近の研究は、プライバシーの予算分布、すなわち、全体の$\varepsilon$の予算を、テキストの構成要素間で正確に分配する方法についての根拠を定めている。
DPテキスト難読化の文脈において,複数テキストの分解と予算分散の手法を体系的に評価し,テキストをチャンクする異なる手法と,これらのチャンクに$\varepsilon$を割り当てる手法を組み合わせる方法について検証する。
われわれの実験によると、このような設計選択は非常に重要であり、たとえ同等のプライバシー予算であっても、どの方法が選択されたかによって、かなり異なる結果が得られる。
本稿では,DPの難読化手順を最適化することにより,経験的トレードオフを最大化できる可能性を示す。
関連論文リスト
- Beyond Theoretical Bounds: Empirical Privacy Loss Calibration for Text Rewriting Under Local Differential Privacy [14.911187878937332]
局所微分プライバシー(LDP)に基づくテキスト書き換え機構の校正方法について検討する。
本稿では,テキストの識別可能性監査を表面および埋め込み空間の両方で行うTeDAを提案する。
このキャリブレーションをいくつかの代表的なメカニズムに適用することにより、同様の名目$varepsilon$boundsは、非常に異なるレベルの識別可能性を示すことを示す。
論文 参考訳(メタデータ) (2026-03-24T09:05:16Z) - Leveraging Semantic Triples for Private Document Generation with Local Differential Privacy Guarantees [18.487751624471777]
DP-STは,局所的なDP保証の下で,近距離対応の私文書生成にセマンティック・トリプルを利用する。
本手法は,プライバシとユーティリティのバランスを保ちながら,バレプシロンの低い値でもコヒーレントなテキスト生成を可能にする。
論文 参考訳(メタデータ) (2025-08-28T12:59:01Z) - The Double-edged Sword of LLM-based Data Reconstruction: Understanding and Mitigating Contextual Vulnerability in Word-level Differential Privacy Text Sanitization [53.51921540246166]
我々は,言語大モデル (LLM) がDP対応テキストの文脈的脆弱性を活用可能であることを示す。
LLM再建の二重刃剣効果がプライバシーと実用性に与える影響を実験的に明らかにした。
本稿では,データ再構成を後処理のステップとして使用するための推奨事項を提案する。
論文 参考訳(メタデータ) (2025-08-26T12:22:45Z) - DP-Fusion: Token-Level Differentially Private Inference for Large Language Models [51.71591819896191]
大規模言語モデル(LLM)は、推論時にプライバシを保存しない。
DP-Fusion は LLM の出力にコンテキスト内のトークンの集合が持つ影響を証明的に束縛する。
提案手法は, 理論的および実証的プライバシを大幅に改善した, 証明可能な民営化文書を作成する。
論文 参考訳(メタデータ) (2025-07-06T20:49:39Z) - Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [77.82885394684202]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。
CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。
我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文 参考訳(メタデータ) (2025-05-21T10:08:39Z) - Spend Your Budget Wisely: Towards an Intelligent Distribution of the Privacy Budget in Differentially Private Text Rewriting [3.0177210416625124]
テキスト文書中のトークンの構成にプライバシー予算を割り当てるのに使用される言語学およびNLPに基づく手法のツールキットを構築し,評価する。
我々の研究は、DPによるテキストの民営化の複雑さを強調し、さらに、DPによるテキストの書き直しにおける民営化のメリットを最大化するための、より効率的な方法を見つけることを求めている。
論文 参考訳(メタデータ) (2025-03-28T12:33:46Z) - Investigating User Perspectives on Differentially Private Text Privatization [81.59631769859004]
この研究は、$textitscenario$, $textitdata sensitivity$, $textitmechanism type$, $textitreason for data collection$, $textitreason for user preferences for text privatizationについて調査する。
これらの要因がプライバシー決定に影響を及ぼす一方で、ユーザはプライベートな出力テキストの有用性と一貫性に非常に敏感である、ということを学びました。
論文 参考訳(メタデータ) (2025-03-12T12:33:20Z) - Just Rewrite It Again: A Post-Processing Method for Enhanced Semantic Similarity and Privacy Preservation of Differentially Private Rewritten Text [3.3916160303055567]
本稿では,書き直したテキストを元のテキストと整合させることを目標とした,簡単な後処理手法を提案する。
以上の結果から,このような手法は,従来の入力よりも意味論的に類似した出力を生成するだけでなく,経験的プライバシ評価において平均的なスコアがよいテキストを生成することが示唆された。
論文 参考訳(メタデータ) (2024-05-30T08:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。