論文の概要: Text Sanitization Beyond Specific Domains: Zero-Shot Redaction &
Substitution with Large Language Models
- arxiv url: http://arxiv.org/abs/2311.10785v1
- Date: Thu, 16 Nov 2023 18:42:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 14:39:08.716507
- Title: Text Sanitization Beyond Specific Domains: Zero-Shot Redaction &
Substitution with Large Language Models
- Title(参考訳): 特定のドメインを超えたテキストのサニタイズ:大言語モデルによるゼロショット冗長化と置換
- Authors: Federico Albanese and Daniel Ciolek and Nicolas D'Ippolito
- Abstract要約: 本稿では,大規模言語モデルを用いて潜在的に敏感な情報を検出・置換するゼロショットテキスト衛生手法を提案する。
本手法は,テキストコヒーレンスとコンテキスト情報を維持しながら,プライバシ保護に優れることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the context of information systems, text sanitization techniques are used
to identify and remove sensitive data to comply with security and regulatory
requirements. Even though many methods for privacy preservation have been
proposed, most of them are focused on the detection of entities from specific
domains (e.g., credit card numbers, social security numbers), lacking
generality and requiring customization for each desirable domain. Moreover,
removing words is, in general, a drastic measure, as it can degrade text
coherence and contextual information. Less severe measures include substituting
a word for a safe alternative, yet it can be challenging to automatically find
meaningful substitutions. We present a zero-shot text sanitization technique
that detects and substitutes potentially sensitive information using Large
Language Models. Our evaluation shows that our method excels at protecting
privacy while maintaining text coherence and contextual information, preserving
data utility for downstream tasks.
- Abstract(参考訳): 情報システムの文脈では、セキュリティや規制要件に適合する機密データを識別および削除するために、テキスト衛生技術が使用される。
プライバシー保護のための多くの方法が提案されているが、そのほとんどは特定のドメイン(クレジットカード番号、社会保障番号など)からのエンティティの検出に焦点が当てられている。
さらに、単語の除去は、テキストコヒーレンスや文脈情報を分解できるため、一般的には劇的な手段である。
より厳格な措置には、安全な代替品のための単語の置換が含まれるが、意味のある代替品を自動的に見つけることは困難である。
本稿では,大規模言語モデルを用いて潜在的に敏感な情報を検出・置換するゼロショットテキスト衛生手法を提案する。
提案手法は,テキストコヒーレンスとコンテキスト情報を維持しながら,下流タスクのためのデータユーティリティを保ちながら,プライバシ保護に優れることを示す。
関連論文リスト
- WatME: Towards Lossless Watermarking Through Lexical Redundancy [61.55924872561569]
相互排他型透かし(WatME)という新しいアプローチを導入する。
WatMEは、言語モデルの復号過程において利用可能な語彙の使用を動的に最適化する。
本稿では,WatMEが大規模言語モデルのテキスト生成能力を大幅に維持していることを示す理論的解析と実証的証拠を示す。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z) - Watermarking Conditional Text Generation for AI Detection: Unveiling
Challenges and a Semantic-Aware Watermark Remedy [52.765898203824975]
本研究では,条件付きテキスト生成と入力コンテキストの特性を考慮した意味認識型透かしアルゴリズムを提案する。
実験結果から,提案手法は様々なテキスト生成モデルに対して大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2023-07-25T20:24:22Z) - Guiding Text-to-Text Privatization by Syntax [0.0]
メトリック微分プライバシー(Metric Differential Privacy)は、テキストからテキストへのプライベート化というユニークな課題に対処するために設計された、差分プライバシーの一般化である。
置換後の単語の文法的カテゴリを保存するために,テキスト・テキスト・プライベート化の能力を分析する。
我々は、民営化のステップを、置換が一致した文法特性を持つ単語に向けられる候補選択問題に変換する。
論文 参考訳(メタデータ) (2023-06-02T11:52:21Z) - Semantics-Preserved Distortion for Personal Privacy Protection [48.69930912510414]
クライアントデバイスでは、ユーザによって毎日、個人情報を含む大量のテキストが生成される。
フェデレートラーニング(Federated Learning)では、クライアントデバイスの生の情報から中心モデルをブロックする多くの方法が提案されている。
本稿では,意味を保ちながらテキストを歪ませることで,より言語的にこれを行おうとする。
論文 参考訳(メタデータ) (2022-01-04T04:01:05Z) - Differential Privacy for Text Analytics via Natural Text Sanitization [44.95170585853761]
本稿では,本論文のテキスト・サニタイズへの直接的なアプローチとして,新たなローカルDP概念による感度と類似性を考察する。
衛生化されたテキストは、我々の衛生に配慮した事前訓練と微調整にも貢献し、将来性のあるユーティリティを備えたBERT言語モデル上でのプライバシー保護自然言語処理を可能にします。
論文 参考訳(メタデータ) (2021-06-02T15:15:10Z) - MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文 参考訳(メタデータ) (2021-04-02T14:34:41Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z) - Sensitive Information Detection: Recursive Neural Networks for Encoding
Context [0.20305676256390928]
機密情報の漏洩は非常にコストがかかる可能性がある。
感度情報を検出するための簡易で脆いルールセットは、実際の感度情報のごく一部しか見つからないことを示す。
我々は,ラベル付き事例へのアクセスのみを前提とした,機密情報検出手法の新たなファミリーを開発する。
論文 参考訳(メタデータ) (2020-08-25T07:49:46Z) - Privacy Guarantees for De-identifying Text Transformations [17.636430224292866]
我々は、差分プライバシーに基づいて、テキスト変換に基づく復号化手法の正式なプライバシー保証を導出する。
複数の自然言語理解タスクにおける深層学習モデルを用いた,より洗練された単語間置換手法との比較を行った。
単語ごとの置換だけが、様々なタスクのパフォーマンス低下に対して堅牢であることに気付きました。
論文 参考訳(メタデータ) (2020-08-07T12:06:42Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。