論文の概要: Text Sanitization Beyond Specific Domains: Zero-Shot Redaction &
Substitution with Large Language Models
- arxiv url: http://arxiv.org/abs/2311.10785v1
- Date: Thu, 16 Nov 2023 18:42:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 14:39:08.716507
- Title: Text Sanitization Beyond Specific Domains: Zero-Shot Redaction &
Substitution with Large Language Models
- Title(参考訳): 特定のドメインを超えたテキストのサニタイズ:大言語モデルによるゼロショット冗長化と置換
- Authors: Federico Albanese and Daniel Ciolek and Nicolas D'Ippolito
- Abstract要約: 本稿では,大規模言語モデルを用いて潜在的に敏感な情報を検出・置換するゼロショットテキスト衛生手法を提案する。
本手法は,テキストコヒーレンスとコンテキスト情報を維持しながら,プライバシ保護に優れることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the context of information systems, text sanitization techniques are used
to identify and remove sensitive data to comply with security and regulatory
requirements. Even though many methods for privacy preservation have been
proposed, most of them are focused on the detection of entities from specific
domains (e.g., credit card numbers, social security numbers), lacking
generality and requiring customization for each desirable domain. Moreover,
removing words is, in general, a drastic measure, as it can degrade text
coherence and contextual information. Less severe measures include substituting
a word for a safe alternative, yet it can be challenging to automatically find
meaningful substitutions. We present a zero-shot text sanitization technique
that detects and substitutes potentially sensitive information using Large
Language Models. Our evaluation shows that our method excels at protecting
privacy while maintaining text coherence and contextual information, preserving
data utility for downstream tasks.
- Abstract(参考訳): 情報システムの文脈では、セキュリティや規制要件に適合する機密データを識別および削除するために、テキスト衛生技術が使用される。
プライバシー保護のための多くの方法が提案されているが、そのほとんどは特定のドメイン(クレジットカード番号、社会保障番号など)からのエンティティの検出に焦点が当てられている。
さらに、単語の除去は、テキストコヒーレンスや文脈情報を分解できるため、一般的には劇的な手段である。
より厳格な措置には、安全な代替品のための単語の置換が含まれるが、意味のある代替品を自動的に見つけることは困難である。
本稿では,大規模言語モデルを用いて潜在的に敏感な情報を検出・置換するゼロショットテキスト衛生手法を提案する。
提案手法は,テキストコヒーレンスとコンテキスト情報を維持しながら,下流タスクのためのデータユーティリティを保ちながら,プライバシ保護に優れることを示す。
関連論文リスト
- Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - IDT: Dual-Task Adversarial Attacks for Privacy Protection [8.312362092693377]
プライバシを保護するには、センシティブな属性を検出できないモデル内の表現を使用する必要がある。
補助的および解釈可能なモデルによる予測を分析し,どのトークンが変更に重要かを識別する手法であるIDTを提案する。
我々は、異なるタスクに適したNLPのための異なるデータセットを評価する。
論文 参考訳(メタデータ) (2024-06-28T04:14:35Z) - NAP^2: A Benchmark for Naturalness and Privacy-Preserving Text Rewriting by Learning from Human [55.20137833039499]
我々は,人間によって使用される2つの共通戦略を用いて,機密テキストの衛生化を提案する。
我々は,クラウドソーシングと大規模言語モデルの利用を通じて,NAP2という最初のコーパスをキュレートする。
論文 参考訳(メタデータ) (2024-06-06T05:07:44Z) - Watermarking Conditional Text Generation for AI Detection: Unveiling
Challenges and a Semantic-Aware Watermark Remedy [52.765898203824975]
本研究では,条件付きテキスト生成と入力コンテキストの特性を考慮した意味認識型透かしアルゴリズムを提案する。
実験結果から,提案手法は様々なテキスト生成モデルに対して大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2023-07-25T20:24:22Z) - Semantics-Preserved Distortion for Personal Privacy Protection in Information Management [65.08939490413037]
本稿では,意味的整合性を維持しつつテキストを歪ませる言語学的アプローチを提案する。
本稿では, 意味保存歪みの枠組みとして, 生成的アプローチと置換的アプローチの2つを提示する。
また、特定の医療情報管理シナリオにおけるプライバシ保護についても検討し、機密データの記憶を効果的に制限していることを示す。
論文 参考訳(メタデータ) (2022-01-04T04:01:05Z) - Differential Privacy for Text Analytics via Natural Text Sanitization [44.95170585853761]
本稿では,本論文のテキスト・サニタイズへの直接的なアプローチとして,新たなローカルDP概念による感度と類似性を考察する。
衛生化されたテキストは、我々の衛生に配慮した事前訓練と微調整にも貢献し、将来性のあるユーティリティを備えたBERT言語モデル上でのプライバシー保護自然言語処理を可能にします。
論文 参考訳(メタデータ) (2021-06-02T15:15:10Z) - MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文 参考訳(メタデータ) (2021-04-02T14:34:41Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z) - Sensitive Information Detection: Recursive Neural Networks for Encoding
Context [0.20305676256390928]
機密情報の漏洩は非常にコストがかかる可能性がある。
感度情報を検出するための簡易で脆いルールセットは、実際の感度情報のごく一部しか見つからないことを示す。
我々は,ラベル付き事例へのアクセスのみを前提とした,機密情報検出手法の新たなファミリーを開発する。
論文 参考訳(メタデータ) (2020-08-25T07:49:46Z) - Privacy Guarantees for De-identifying Text Transformations [17.636430224292866]
我々は、差分プライバシーに基づいて、テキスト変換に基づく復号化手法の正式なプライバシー保証を導出する。
複数の自然言語理解タスクにおける深層学習モデルを用いた,より洗練された単語間置換手法との比較を行った。
単語ごとの置換だけが、様々なタスクのパフォーマンス低下に対して堅牢であることに気付きました。
論文 参考訳(メタデータ) (2020-08-07T12:06:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。