論文の概要: No Intruder, no Validity: Evaluation Criteria for Privacy-Preserving
Text Anonymization
- arxiv url: http://arxiv.org/abs/2103.09263v1
- Date: Tue, 16 Mar 2021 18:18:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 00:36:47.327497
- Title: No Intruder, no Validity: Evaluation Criteria for Privacy-Preserving
Text Anonymization
- Title(参考訳): no intruder, no valid: evaluation criteria for privacy-preserving text anonymization
- Authors: Maximilian Mozes, Bennett Kleinberg
- Abstract要約: 自動テキスト匿名化システムを開発する研究者や実践者は,その評価手法が,個人を再同定から保護するシステムの能力に本当に反映しているかどうかを慎重に評価すべきである。
本稿では,匿名化手法の技術的性能,匿名化による情報損失,不正文書の非匿名化能力を含む評価基準のセットを提案する。
- 参考スコア(独自算出の注目度): 0.48733623015338234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For sensitive text data to be shared among NLP researchers and practitioners,
shared documents need to comply with data protection and privacy laws. There is
hence a growing interest in automated approaches for text anonymization.
However, measuring such methods' performance is challenging: missing a single
identifying attribute can reveal an individual's identity. In this paper, we
draw attention to this problem and argue that researchers and practitioners
developing automated text anonymization systems should carefully assess whether
their evaluation methods truly reflect the system's ability to protect
individuals from being re-identified. We then propose TILD, a set of evaluation
criteria that comprises an anonymization method's technical performance, the
information loss resulting from its anonymization, and the human ability to
de-anonymize redacted documents. These criteria may facilitate progress towards
a standardized way for measuring anonymization performance.
- Abstract(参考訳): 機密テキストデータをNLP研究者と実践者の間で共有するには、共有ドキュメントはデータ保護とプライバシー法に従う必要がある。
そのため、テキスト匿名化の自動化アプローチへの関心が高まっている。
しかし、そのようなメソッドのパフォーマンスを測定することは難しい。単一の識別属性が欠落すると、個人のアイデンティティが明らかになる。
本稿では,この問題に注意を向け,自動テキスト匿名化システムを開発する研究者や実践者が,その評価手法が,個人の再同定を防げるシステムの能力を本当に反映しているかを慎重に評価すべきであると主張する。
次に、匿名化手法の技術的性能、匿名化による情報損失、再現された文書の非匿名化能力を含む評価基準のセットであるTILDを提案する。
これらの基準は、匿名化性能を測定する標準的な方法への進歩を促進する可能性がある。
関連論文リスト
- Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Anonymization Prompt Learning for Facial Privacy-Preserving Text-to-Image Generation [56.46932751058042]
我々は、テキストから画像への拡散モデルのための学習可能なプロンプトプレフィックスをトレーニングし、匿名化された顔のアイデンティティを生成するよう強制する。
実験では,非同一性固有の画像生成の品質を損なうことなく,特定の個人を匿名化するAPLの匿名化性能を実証した。
論文 参考訳(メタデータ) (2024-05-27T07:38:26Z) - Large Language Models are Advanced Anonymizers [13.900633576526863]
敵の匿名化が、現在の業界レベルの匿名化を、その結果のユーティリティとプライバシの点で上回っていることを示す。
まず,敵対的LLM推論の面における匿名性を評価するための新しい設定を提案する。
論文 参考訳(メタデータ) (2024-02-21T14:44:00Z) - Diff-Privacy: Diffusion-based Face Privacy Protection [58.1021066224765]
本稿では,Diff-Privacyと呼ばれる拡散モデルに基づく顔のプライバシー保護手法を提案する。
具体的には、提案したマルチスケール画像インバージョンモジュール(MSI)をトレーニングし、元の画像のSDMフォーマット条件付き埋め込みのセットを得る。
本研究は,条件付き埋め込みに基づいて,組込みスケジューリング戦略を設計し,デノナイズプロセス中に異なるエネルギー関数を構築し,匿名化と視覚的アイデンティティ情報隠蔽を実現する。
論文 参考訳(メタデータ) (2023-09-11T09:26:07Z) - A False Sense of Privacy: Towards a Reliable Evaluation Methodology for the Anonymization of Biometric Data [8.799600976940678]
生体データは、顔の特徴や歩行パターンのような特徴的な人間の特徴を含んでいる。
プライバシー保護は、匿名化の技法によって広範囲に提供される。
我々は、匿名化の性能を評価するために使用される最先端の手法を評価する。
論文 参考訳(メタデータ) (2023-04-04T08:46:14Z) - Unsupervised Text Deidentification [101.2219634341714]
個人識別情報を漏洩する単語を隠蔽する教師なしの識別手法を提案する。
K匿名性に基づくプライバシによって動機づけられた私たちは、最小の再識別ランクを保証するリアクションを生成します。
論文 参考訳(メタデータ) (2022-10-20T18:54:39Z) - A Dataset on Malicious Paper Bidding in Peer Review [84.68308372858755]
悪意あるレビュアーは、紙の割り当てを非倫理的に操作するために戦略的に入札した。
この問題を緩和するための方法の作成と評価への重要な障害は、悪意ある紙入札に関する公開データの欠如である。
我々は、参加者に正直に、悪意的に入札するよう指示されたモックカンファレンス活動から収集された、新しいデータセットをリリースする。
論文 参考訳(メタデータ) (2022-06-24T20:23:33Z) - Statistical anonymity: Quantifying reidentification risks without
reidentifying users [4.103598036312231]
データ匿名化は、参加者の再識別を防ぐためのプライバシ保護データリリースに対するアプローチである。
リリースされたデータに$k$匿名を強制するための既存のアルゴリズムは、匿名化を実行するキュレーターが元のデータに完全にアクセスできることを前提としている。
本稿では,キュレーターに置かれなければならない信頼を減らすためのアイデアについて検討するが,それでも$k$匿名性の統計的概念は維持されている。
論文 参考訳(メタデータ) (2022-01-28T18:12:44Z) - The Text Anonymization Benchmark (TAB): A Dedicated Corpus and
Evaluation Framework for Text Anonymization [2.9849405664643585]
本稿では,テキスト匿名化手法の性能評価のための新しいベンチマークと関連する評価指標を提案する。
テキスト匿名化は、個人情報の開示を防ぐためにテキスト文書を編集するタスクとして定義されており、現在、プライバシー指向の注釈付きテキストリソースが不足している。
本稿では,TAB (Text Anonymization Benchmark) について述べる。
論文 参考訳(メタデータ) (2022-01-25T14:34:42Z) - Protecting Anonymous Speech: A Generative Adversarial Network
Methodology for Removing Stylistic Indicators in Text [2.9005223064604078]
我々は,生成的敵ネットワークの構築によるオーサリングの匿名化への新たなアプローチを開発する。
完全自動方式は,コンテンツ保存や流布の点で他の手法と同等の結果が得られる。
我々のアプローチは、オープンセットの文脈に順応し、これまで遭遇したことのない著者の文章を匿名化することができる。
論文 参考訳(メタデータ) (2021-10-18T17:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。