論文の概要: Silencing the Risk, Not the Whistle: A Semi-automated Text Sanitization Tool for Mitigating the Risk of Whistleblower Re-Identification
- arxiv url: http://arxiv.org/abs/2405.01097v1
- Date: Thu, 2 May 2024 08:52:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 17:23:40.682902
- Title: Silencing the Risk, Not the Whistle: A Semi-automated Text Sanitization Tool for Mitigating the Risk of Whistleblower Re-Identification
- Title(参考訳): ウィスルではなくリスクを鎮める: ウィスルブロワー再同定のリスクを緩和する半自動テキスト衛生ツール
- Authors: Dimitri Staufer, Frank Pallas, Bettina Berendt,
- Abstract要約: ホイッスルブローイングは、公共部門と民間部門の両方で透明性と説明責任を確保するために不可欠である。
EUのWBDのような法的措置は、その範囲と有効性に制限されている。
現在のテキストのサニタイズツールは、一大のアプローチを踏襲し、匿名性を極端に限定している。
- 参考スコア(独自算出の注目度): 4.082799056366928
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Whistleblowing is essential for ensuring transparency and accountability in both public and private sectors. However, (potential) whistleblowers often fear or face retaliation, even when reporting anonymously. The specific content of their disclosures and their distinct writing style may re-identify them as the source. Legal measures, such as the EU WBD, are limited in their scope and effectiveness. Therefore, computational methods to prevent re-identification are important complementary tools for encouraging whistleblowers to come forward. However, current text sanitization tools follow a one-size-fits-all approach and take an overly limited view of anonymity. They aim to mitigate identification risk by replacing typical high-risk words (such as person names and other NE labels) and combinations thereof with placeholders. Such an approach, however, is inadequate for the whistleblowing scenario since it neglects further re-identification potential in textual features, including writing style. Therefore, we propose, implement, and evaluate a novel classification and mitigation strategy for rewriting texts that involves the whistleblower in the assessment of the risk and utility. Our prototypical tool semi-automatically evaluates risk at the word/term level and applies risk-adapted anonymization techniques to produce a grammatically disjointed yet appropriately sanitized text. We then use a LLM that we fine-tuned for paraphrasing to render this text coherent and style-neutral. We evaluate our tool's effectiveness using court cases from the ECHR and excerpts from a real-world whistleblower testimony and measure the protection against authorship attribution (AA) attacks and utility loss statistically using the popular IMDb62 movie reviews dataset. Our method can significantly reduce AA accuracy from 98.81% to 31.22%, while preserving up to 73.1% of the original content's semantics.
- Abstract(参考訳): ホイッスルブローイングは、公共部門と民間部門の両方で透明性と説明責任を確保するために不可欠である。
しかし、(潜在的に)内部告発者は、匿名で報告しても、しばしば報復を恐れたり、直面する。
公開の具体的な内容と、それらの異なる書き込みスタイルは、それらをソースとして再識別することができる。
EUのWBDのような法的措置は、その範囲と有効性に制限されている。
したがって, 再同定防止のための計算手法は, 内部告発者の前進を促す重要な補完ツールである。
しかし、現在のテキストのサニタイズツールは、一大のアプローチを踏襲し、匿名性の過度に制限されたビューを取る。
彼らは、典型的なハイリスクな単語(人名やNEラベルなど)とそれらの組み合わせをプレースホルダーに置き換えることで、識別リスクを軽減することを目指している。
しかし、このようなアプローチは、筆跡などテキストの特徴において、さらなる再識別の可能性を無視しているため、whiblowingのシナリオには不十分である。
そこで我々は,そのリスクと有用性を評価するために,whithblowerを含むテキストの書き直しのための新しい分類と緩和戦略を提案し,実装し,評価する。
原型的ツールでは,単語/項レベルでのリスクを半自動評価し,リスク適応型匿名化手法を適用し,文法的に不整合で適切に衛生化されたテキストを生成する。
次に、パラフレージングのために微調整したLLMを使用して、このテキストの一貫性とスタイルニュートラルを描画します。
我々は,ECHRの裁判と実世界の告発者証言からの抜粋を用いてツールの有効性を評価し,一般のIMDb62映画レビューデータセットを用いて,著者帰属(AA)攻撃とユーティリティ損失に対する保護を統計的に評価した。
我々の方法では、AAの精度が98.81%から31.22%に大幅に低下し、オリジナルコンテンツのセマンティクスの73.1%が保存される。
関連論文リスト
- Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - IncogniText: Privacy-enhancing Conditional Text Anonymization via LLM-based Private Attribute Randomization [8.483679748399037]
IncogniTextは,テキストを匿名化して潜在的敵を誤認し,誤った属性値を予測する手法である。
実証評価の結果,私的属性の漏洩が90%以上減少した。
論文 参考訳(メタデータ) (2024-07-03T09:49:03Z) - RedactBuster: Entity Type Recognition from Redacted Documents [13.172863061928899]
文コンテキストを用いた最初の匿名化モデルであるRedactBusterを提案し、反応テキスト上で名前付きエンティティ認識を行う。
我々はRedactBusterを最も効果的なリアクション技術に対してテストし、公開されているテキスト匿名化ベンチマーク(TAB)を用いて評価する。
その結果,文書の性質やエンティティタイプに関わらず,最大0.985の精度が得られた。
論文 参考訳(メタデータ) (2024-04-19T16:42:44Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - SemStamp: A Semantic Watermark with Paraphrastic Robustness for Text Generation [72.10931780019297]
既存の透かしアルゴリズムはトークンレベルの設計のため、パラフレーズ攻撃に弱い。
局所性に敏感なハッシュ(LSH)に基づく頑健な文レベルのセマンティック透かしアルゴリズムSemStampを提案する。
実験結果から,本アルゴリズムは従来手法に比べて,従来手法よりも頑健であるだけでなく,生成品質の維持にも有効であることが示唆された。
論文 参考訳(メタデータ) (2023-10-06T03:33:42Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - User-Centered Security in Natural Language Processing [0.7106986689736825]
自然言語処理(NLP)におけるユーザ中心のセキュリティの枠組みの提案
NLP内の2つのセキュリティドメインに重点を置いている。
論文 参考訳(メタデータ) (2023-01-10T22:34:19Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Protecting Anonymous Speech: A Generative Adversarial Network
Methodology for Removing Stylistic Indicators in Text [2.9005223064604078]
我々は,生成的敵ネットワークの構築によるオーサリングの匿名化への新たなアプローチを開発する。
完全自動方式は,コンテンツ保存や流布の点で他の手法と同等の結果が得られる。
我々のアプローチは、オープンセットの文脈に順応し、これまで遭遇したことのない著者の文章を匿名化することができる。
論文 参考訳(メタデータ) (2021-10-18T17:45:56Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - No Intruder, no Validity: Evaluation Criteria for Privacy-Preserving
Text Anonymization [0.48733623015338234]
自動テキスト匿名化システムを開発する研究者や実践者は,その評価手法が,個人を再同定から保護するシステムの能力に本当に反映しているかどうかを慎重に評価すべきである。
本稿では,匿名化手法の技術的性能,匿名化による情報損失,不正文書の非匿名化能力を含む評価基準のセットを提案する。
論文 参考訳(メタデータ) (2021-03-16T18:18:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。