論文の概要: RedactBuster: Entity Type Recognition from Redacted Documents
- arxiv url: http://arxiv.org/abs/2404.12991v1
- Date: Fri, 19 Apr 2024 16:42:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 14:26:33.370824
- Title: RedactBuster: Entity Type Recognition from Redacted Documents
- Title(参考訳): RedactBuster: ドキュメントからエンティティの型認識
- Authors: Mirco Beltrame, Mauro Conti, Pierpaolo Guglielmin, Francesco Marchiori, Gabriele Orazi,
- Abstract要約: 文コンテキストを用いた最初の匿名化モデルであるRedactBusterを提案し、反応テキスト上で名前付きエンティティ認識を行う。
我々はRedactBusterを最も効果的なリアクション技術に対してテストし、公開されているテキスト匿名化ベンチマーク(TAB)を用いて評価する。
その結果,文書の性質やエンティティタイプに関わらず,最大0.985の精度が得られた。
- 参考スコア(独自算出の注目度): 13.172863061928899
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The widespread exchange of digital documents in various domains has resulted in abundant private information being shared. This proliferation necessitates redaction techniques to protect sensitive content and user privacy. While numerous redaction methods exist, their effectiveness varies, with some proving more robust than others. As such, the literature proposes several deanonymization techniques, raising awareness of potential privacy threats. However, while none of these methods are successful against the most effective redaction techniques, these attacks only focus on the anonymized tokens and ignore the sentence context. In this paper, we propose RedactBuster, the first deanonymization model using sentence context to perform Named Entity Recognition on reacted text. Our methodology leverages fine-tuned state-of-the-art Transformers and Deep Learning models to determine the anonymized entity types in a document. We test RedactBuster against the most effective redaction technique and evaluate it using the publicly available Text Anonymization Benchmark (TAB). Our results show accuracy values up to 0.985 regardless of the document nature or entity type. In raising awareness of this privacy issue, we propose a countermeasure we call character evasion that helps strengthen the secrecy of sensitive information. Furthermore, we make our model and testbed open-source to aid researchers and practitioners in evaluating the resilience of novel redaction techniques and enhancing document privacy.
- Abstract(参考訳): 諸藩におけるデジタル文書の交流が広まり、多くの個人情報が共有されるようになった。
この増殖は、機密性の高いコンテンツとユーザのプライバシーを保護するために、再作用技術を必要とする。
多くのリアクション法が存在するが、その効果は様々であり、いくつかは他の方法よりも堅牢であることを示すものもある。
このように、文献はいくつかの匿名化手法を提案し、潜在的なプライバシーの脅威に対する認識を高めている。
しかしながら、これらの手法はどれも最も効果的なリアクション手法に対して成功していないが、これらの攻撃は匿名化トークンにのみ焦点をあて、文コンテキストを無視する。
本稿では、文コンテキストを用いた最初の匿名化モデルであるRedactBusterを提案し、反応テキスト上で名前付きエンティティ認識を行う。
本手法は,文書中の匿名化されたエンティティタイプを決定するために,最先端のトランスフォーマーとディープラーニングモデルを活用する。
我々はRedactBusterを最も効果的なリアクション技術に対してテストし、公開されているText Anonymization Benchmark (TAB)を用いて評価する。
その結果,文書の性質やエンティティタイプに関わらず,最大0.985の精度が得られた。
本稿では,このプライバシー問題に対する意識を高めるために,機密情報の機密性を高めるための文字回避対策を提案する。
さらに,新たなリアクション手法のレジリエンスを評価し,文書のプライバシを向上させる上で,研究者や実践者を支援するために,我々のモデルとテストベッドをオープンソースにしている。
関連論文リスト
- Anonymization of Documents for Law Enforcement with Machine Learning [1.237454174824584]
本稿では,スキャンした文書の画像を自動的に匿名化するシステムを提案する。
匿名化後のさらなる法医学的処理の可能性を検討する。
提案手法は、純粋に自動的なリアクションシステムと、参照匿名化の簡易なコピー・ペースト方式の両方より優れていることを示す。
論文 参考訳(メタデータ) (2025-01-13T13:47:00Z) - NAP^2: A Benchmark for Naturalness and Privacy-Preserving Text Rewriting by Learning from Human [55.20137833039499]
我々は,人間によって使用される2つの共通戦略を用いて,機密テキストの衛生化を提案する。
我々は,クラウドソーシングと大規模言語モデルの利用を通じて,NAP2という最初のコーパスをキュレートする。
論文 参考訳(メタデータ) (2024-06-06T05:07:44Z) - Anonymization Prompt Learning for Facial Privacy-Preserving Text-to-Image Generation [56.46932751058042]
我々は、テキストから画像への拡散モデルのための学習可能なプロンプトプレフィックスをトレーニングし、匿名化された顔のアイデンティティを生成するよう強制する。
実験では,非同一性固有の画像生成の品質を損なうことなく,特定の個人を匿名化するAPLの匿名化性能を実証した。
論文 参考訳(メタデータ) (2024-05-27T07:38:26Z) - JAMDEC: Unsupervised Authorship Obfuscation using Constrained Decoding
over Small Language Models [53.83273575102087]
著者の難読化に対する教師なし推論時間アプローチを提案する。
本稿では,著者難読化のためのユーザ制御推論時間アルゴリズムであるJAMDECを紹介する。
提案手法は,GPT2-XL などの小型言語モデルに基づいて,オリジナルコンテンツをプロプライエタリな LLM の API に公開するのを防ぐ。
論文 参考訳(メタデータ) (2024-02-13T19:54:29Z) - A False Sense of Privacy: Towards a Reliable Evaluation Methodology for the Anonymization of Biometric Data [8.799600976940678]
生体データは、顔の特徴や歩行パターンのような特徴的な人間の特徴を含んでいる。
プライバシー保護は、匿名化の技法によって広範囲に提供される。
我々は、匿名化の性能を評価するために使用される最先端の手法を評価する。
論文 参考訳(メタデータ) (2023-04-04T08:46:14Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - The Limits of Word Level Differential Privacy [30.34805746574316]
そこで本稿では, パラフレージング用に微調整されたトランスフォーマーベース言語モデルに基づくテキスト匿名化手法を提案する。
提案手法を徹底的な実験により評価し,提案手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-02T21:53:10Z) - Semantics-Preserved Distortion for Personal Privacy Protection in Information Management [65.08939490413037]
本稿では,意味的整合性を維持しつつテキストを歪ませる言語学的アプローチを提案する。
本稿では, 意味保存歪みの枠組みとして, 生成的アプローチと置換的アプローチの2つを提示する。
また、特定の医療情報管理シナリオにおけるプライバシ保護についても検討し、機密データの記憶を効果的に制限していることを示す。
論文 参考訳(メタデータ) (2022-01-04T04:01:05Z) - Protecting Anonymous Speech: A Generative Adversarial Network
Methodology for Removing Stylistic Indicators in Text [2.9005223064604078]
我々は,生成的敵ネットワークの構築によるオーサリングの匿名化への新たなアプローチを開発する。
完全自動方式は,コンテンツ保存や流布の点で他の手法と同等の結果が得られる。
我々のアプローチは、オープンセットの文脈に順応し、これまで遭遇したことのない著者の文章を匿名化することができる。
論文 参考訳(メタデータ) (2021-10-18T17:45:56Z) - No Intruder, no Validity: Evaluation Criteria for Privacy-Preserving
Text Anonymization [0.48733623015338234]
自動テキスト匿名化システムを開発する研究者や実践者は,その評価手法が,個人を再同定から保護するシステムの能力に本当に反映しているかどうかを慎重に評価すべきである。
本稿では,匿名化手法の技術的性能,匿名化による情報損失,不正文書の非匿名化能力を含む評価基準のセットを提案する。
論文 参考訳(メタデータ) (2021-03-16T18:18:29Z) - Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News [57.9843300852526]
我々は、画像やキャプションを含む機械生成ニュースに対して、より現実的で挑戦的な対策を導入する。
敵が悪用できる可能性のある弱点を特定するために、4つの異なる種類の生成された記事からなるNeuralNewsデータセットを作成します。
ユーザ実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-16T14:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。