論文の概要: RedactBuster: Entity Type Recognition from Redacted Documents
- arxiv url: http://arxiv.org/abs/2404.12991v1
- Date: Fri, 19 Apr 2024 16:42:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 14:26:33.370824
- Title: RedactBuster: Entity Type Recognition from Redacted Documents
- Title(参考訳): RedactBuster: ドキュメントからエンティティの型認識
- Authors: Mirco Beltrame, Mauro Conti, Pierpaolo Guglielmin, Francesco Marchiori, Gabriele Orazi,
- Abstract要約: 文コンテキストを用いた最初の匿名化モデルであるRedactBusterを提案し、反応テキスト上で名前付きエンティティ認識を行う。
我々はRedactBusterを最も効果的なリアクション技術に対してテストし、公開されているテキスト匿名化ベンチマーク(TAB)を用いて評価する。
その結果,文書の性質やエンティティタイプに関わらず,最大0.985の精度が得られた。
- 参考スコア(独自算出の注目度): 13.172863061928899
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The widespread exchange of digital documents in various domains has resulted in abundant private information being shared. This proliferation necessitates redaction techniques to protect sensitive content and user privacy. While numerous redaction methods exist, their effectiveness varies, with some proving more robust than others. As such, the literature proposes several deanonymization techniques, raising awareness of potential privacy threats. However, while none of these methods are successful against the most effective redaction techniques, these attacks only focus on the anonymized tokens and ignore the sentence context. In this paper, we propose RedactBuster, the first deanonymization model using sentence context to perform Named Entity Recognition on reacted text. Our methodology leverages fine-tuned state-of-the-art Transformers and Deep Learning models to determine the anonymized entity types in a document. We test RedactBuster against the most effective redaction technique and evaluate it using the publicly available Text Anonymization Benchmark (TAB). Our results show accuracy values up to 0.985 regardless of the document nature or entity type. In raising awareness of this privacy issue, we propose a countermeasure we call character evasion that helps strengthen the secrecy of sensitive information. Furthermore, we make our model and testbed open-source to aid researchers and practitioners in evaluating the resilience of novel redaction techniques and enhancing document privacy.
- Abstract(参考訳): 諸藩におけるデジタル文書の交流が広まり、多くの個人情報が共有されるようになった。
この増殖は、機密性の高いコンテンツとユーザのプライバシーを保護するために、再作用技術を必要とする。
多くのリアクション法が存在するが、その効果は様々であり、いくつかは他の方法よりも堅牢であることを示すものもある。
このように、文献はいくつかの匿名化手法を提案し、潜在的なプライバシーの脅威に対する認識を高めている。
しかしながら、これらの手法はどれも最も効果的なリアクション手法に対して成功していないが、これらの攻撃は匿名化トークンにのみ焦点をあて、文コンテキストを無視する。
本稿では、文コンテキストを用いた最初の匿名化モデルであるRedactBusterを提案し、反応テキスト上で名前付きエンティティ認識を行う。
本手法は,文書中の匿名化されたエンティティタイプを決定するために,最先端のトランスフォーマーとディープラーニングモデルを活用する。
我々はRedactBusterを最も効果的なリアクション技術に対してテストし、公開されているText Anonymization Benchmark (TAB)を用いて評価する。
その結果,文書の性質やエンティティタイプに関わらず,最大0.985の精度が得られた。
本稿では,このプライバシー問題に対する意識を高めるために,機密情報の機密性を高めるための文字回避対策を提案する。
さらに,新たなリアクション手法のレジリエンスを評価し,文書のプライバシを向上させる上で,研究者や実践者を支援するために,我々のモデルとテストベッドをオープンソースにしている。
関連論文リスト
- JAMDEC: Unsupervised Authorship Obfuscation using Constrained Decoding
over Small Language Models [53.83273575102087]
著者の難読化に対する教師なし推論時間アプローチを提案する。
本稿では,著者難読化のためのユーザ制御推論時間アルゴリズムであるJAMDECを紹介する。
提案手法は,GPT2-XL などの小型言語モデルに基づいて,オリジナルコンテンツをプロプライエタリな LLM の API に公開するのを防ぐ。
論文 参考訳(メタデータ) (2024-02-13T19:54:29Z) - Defending Against Authorship Identification Attacks [9.148691357200216]
著者の識別は、署名されていない文書の著者の同一性を推測するのに不安定に有効であることが証明されている。
この論文は、過去20年以上にわたるこの研究領域の進歩に関する総合的なレビューを提供する。
論文 参考訳(メタデータ) (2023-10-02T19:03:11Z) - Diff-Privacy: Diffusion-based Face Privacy Protection [58.1021066224765]
本稿では,Diff-Privacyと呼ばれる拡散モデルに基づく顔のプライバシー保護手法を提案する。
具体的には、提案したマルチスケール画像インバージョンモジュール(MSI)をトレーニングし、元の画像のSDMフォーマット条件付き埋め込みのセットを得る。
本研究は,条件付き埋め込みに基づいて,組込みスケジューリング戦略を設計し,デノナイズプロセス中に異なるエネルギー関数を構築し,匿名化と視覚的アイデンティティ情報隠蔽を実現する。
論文 参考訳(メタデータ) (2023-09-11T09:26:07Z) - Verifying the Robustness of Automatic Credibility Assessment [79.08422736721764]
テキスト分類法は信頼性の低い内容を検出する手段として広く研究されている。
入力テキストの無意味な変更は、モデルを誤解させることがある。
偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - The Limits of Word Level Differential Privacy [30.34805746574316]
そこで本稿では, パラフレージング用に微調整されたトランスフォーマーベース言語モデルに基づくテキスト匿名化手法を提案する。
提案手法を徹底的な実験により評価し,提案手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-02T21:53:10Z) - Semantics-Preserved Distortion for Personal Privacy Protection [48.69930912510414]
クライアントデバイスでは、ユーザによって毎日、個人情報を含む大量のテキストが生成される。
フェデレートラーニング(Federated Learning)では、クライアントデバイスの生の情報から中心モデルをブロックする多くの方法が提案されている。
本稿では,意味を保ちながらテキストを歪ませることで,より言語的にこれを行おうとする。
論文 参考訳(メタデータ) (2022-01-04T04:01:05Z) - Initiative Defense against Facial Manipulation [82.96864888025797]
本稿では,悪意あるユーザによって制御される顔操作モデルの性能を低下させるための,イニシアティブ・ディフェンスの新しい枠組みを提案する。
まず、サロゲートモデルを用いてターゲット操作モデルを模倣し、次に毒の摂動発生器を考案し、所望の毒を得る。
論文 参考訳(メタデータ) (2021-12-19T09:42:28Z) - Protecting Anonymous Speech: A Generative Adversarial Network
Methodology for Removing Stylistic Indicators in Text [2.9005223064604078]
我々は,生成的敵ネットワークの構築によるオーサリングの匿名化への新たなアプローチを開発する。
完全自動方式は,コンテンツ保存や流布の点で他の手法と同等の結果が得られる。
我々のアプローチは、オープンセットの文脈に順応し、これまで遭遇したことのない著者の文章を匿名化することができる。
論文 参考訳(メタデータ) (2021-10-18T17:45:56Z) - No Intruder, no Validity: Evaluation Criteria for Privacy-Preserving
Text Anonymization [0.48733623015338234]
自動テキスト匿名化システムを開発する研究者や実践者は,その評価手法が,個人を再同定から保護するシステムの能力に本当に反映しているかどうかを慎重に評価すべきである。
本稿では,匿名化手法の技術的性能,匿名化による情報損失,不正文書の非匿名化能力を含む評価基準のセットを提案する。
論文 参考訳(メタデータ) (2021-03-16T18:18:29Z) - Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News [57.9843300852526]
我々は、画像やキャプションを含む機械生成ニュースに対して、より現実的で挑戦的な対策を導入する。
敵が悪用できる可能性のある弱点を特定するために、4つの異なる種類の生成された記事からなるNeuralNewsデータセットを作成します。
ユーザ実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-16T14:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。