論文の概要: Behind the Mask: Demographic bias in name detection for PII masking
- arxiv url: http://arxiv.org/abs/2205.04505v1
- Date: Mon, 9 May 2022 18:21:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-15 02:49:14.721363
- Title: Behind the Mask: Demographic bias in name detection for PII masking
- Title(参考訳): マスクの裏側:PIIマスクの名前検出におけるデモグラフィックバイアス
- Authors: Courtney Mansfield, Amandalynne Paullada, Kristen Howell
- Abstract要約: 市販の3種類のPIIマスキングシステムの性能を名前検出とリアクションで評価した。
オープンソースのRoBERTaベースのシステムでは、テストした商用モデルよりも相違が少ないことが分かりました。
エラー率が最も高かったのは、黒とアジア/太平洋の島民の名前である。
- 参考スコア(独自算出の注目度): 5.071136834627255
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Many datasets contain personally identifiable information, or PII, which
poses privacy risks to individuals. PII masking is commonly used to redact
personal information such as names, addresses, and phone numbers from text
data. Most modern PII masking pipelines involve machine learning algorithms.
However, these systems may vary in performance, such that individuals from
particular demographic groups bear a higher risk for having their personal
information exposed. In this paper, we evaluate the performance of three
off-the-shelf PII masking systems on name detection and redaction. We generate
data using names and templates from the customer service domain. We find that
an open-source RoBERTa-based system shows fewer disparities than the commercial
models we test. However, all systems demonstrate significant differences in
error rate based on demographics. In particular, the highest error rates
occurred for names associated with Black and Asian/Pacific Islander
individuals.
- Abstract(参考訳): 多くのデータセットには、個人にプライバシーリスクをもたらす個人識別情報(pii)が含まれている。
PIIマスキングは、テキストデータから名前、住所、電話番号などの個人情報を書き換えるのに一般的に用いられる。
現代のPIIマスキングパイプラインのほとんどは、機械学習アルゴリズムを含んでいる。
しかし、これらのシステムは、特定の人口集団の個人が個人情報を暴露するリスクが高いなど、パフォーマンスに異なる可能性がある。
本稿では,3種類の市販PIIマスキングシステムの性能を名前検出とリアクションで評価する。
顧客サービスドメインから名前とテンプレートを使ってデータを生成します。
オープンソースのRoBERTaベースのシステムでは、テストした商用モデルよりも相違が少ないことが分かりました。
しかし、全てのシステムは人口統計に基づく誤差率の顕著な違いを示している。
特に、ブラック・アンド・アジア・太平洋諸島の個人に最も高いエラー率があった。
関連論文リスト
- Differentially Private Data Release on Graphs: Inefficiencies and Unfairness [48.96399034594329]
本稿では,ネットワーク情報公開の文脈における偏見と不公平性に対する差別的プライバシの影響を特徴づける。
ネットワーク構造が全員に知られているネットワークリリースの問題を考えるが、エッジの重みをプライベートにリリースする必要がある。
我々の研究は、これらのネットワーク化された決定問題におけるプライバシーに起因する偏見と不公平性に関する理論的根拠と実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-08-08T08:37:37Z) - When Graph Convolution Meets Double Attention: Online Privacy Disclosure Detection with Multi-Label Text Classification [6.700420953065072]
影響を受ける人々やオンラインプラットフォームに警告する上で、このような望ましくないプライバシー開示を検出することが重要です。
本稿では,多ラベルテキスト分類問題としてプライバシ開示検出をモデル化する。
オンラインプライバシ開示を検出するMLTC分類器を構築するために,新たなプライバシ開示検出モデルを提案する。
論文 参考訳(メタデータ) (2023-11-27T15:25:17Z) - How Do Input Attributes Impact the Privacy Loss in Differential Privacy? [55.492422758737575]
DPニューラルネットワークにおけるオブジェクトごとの規範と個人のプライバシ損失との関係について検討する。
プライバシ・ロス・インプット・サセプティビリティ(PLIS)と呼ばれる新しい指標を導入し、被験者のプライバシ・ロスを入力属性に適応させることを可能にした。
論文 参考訳(メタデータ) (2022-11-18T11:39:03Z) - Unsupervised Text Deidentification [101.2219634341714]
個人識別情報を漏洩する単語を隠蔽する教師なしの識別手法を提案する。
K匿名性に基づくプライバシによって動機づけられた私たちは、最小の再識別ランクを保証するリアクションを生成します。
論文 参考訳(メタデータ) (2022-10-20T18:54:39Z) - Assessing Demographic Bias Transfer from Dataset to Model: A Case Study
in Facial Expression Recognition [1.5340540198612824]
2つのメトリクスはデータセットの表現バイアスとステレオタイプバイアスに焦点をあて、もう1つはトレーニングされたモデルの残差バイアスに焦点を当てている。
本稿では、一般的なAffectnetデータセットに基づくFER問題に適用することで、メトリクスの有用性を示す。
論文 参考訳(メタデータ) (2022-05-20T09:40:42Z) - Unique on Facebook: Formulation and Evidence of (Nano)targeting
Individual Users with non-PII Data [0.10799106628248668]
データ駆動モデルを定義して、Facebook上でユニークにするユーザからの関心の数を定量化します。
私たちの知る限りでは、これは世界人口規模での個人の独特性に関する最初の研究である。
この論文の著者3人を対象に、21のFacebook広告キャンペーンを通じて実験を行っている。
論文 参考訳(メタデータ) (2021-10-13T11:00:22Z) - Robustness Disparities in Commercial Face Detection [72.25318723264215]
私たちは、Amazon Rekognition、Microsoft Azure、Google Cloud Platformの3つのシステムの堅牢性に関する、この種の詳細なベンチマークを初めて提示します。
一般的には、年齢、男性像、肌型、薄暗い色合いの人物の写真は、他のアイデンティティーの人物よりも、エラーの影響を受けやすいことが分かりました。
論文 参考訳(メタデータ) (2021-08-27T21:37:16Z) - Balancing Biases and Preserving Privacy on Balanced Faces in the Wild [50.915684171879036]
現在の顔認識(FR)モデルには、人口統計バイアスが存在する。
さまざまな民族と性別のサブグループにまたがる偏見を測定するために、我々のバランス・フェイススをWildデータセットに導入します。
真偽と偽のサンプルペアを区別するために1点のスコアしきい値に依存すると、最適以下の結果が得られます。
本稿では,最先端ニューラルネットワークから抽出した顔特徴を用いたドメイン適応学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-16T15:05:49Z) - Camera-aware Proxies for Unsupervised Person Re-Identification [60.26031011794513]
本稿では、アノテーションを必要としない純粋に教師なしの人物識別(Re-ID)問題に取り組む。
各クラスタを複数のプロキシに分割し、それぞれのプロキシが同じカメラからのインスタンスを表すことを提案する。
カメラ認識プロキシに基づいて、カメラ内およびカメラ間コントラスト学習コンポーネントをre-idモデル用に設計する。
論文 参考訳(メタデータ) (2020-12-19T12:37:04Z) - How important are faces for person re-identification? [14.718372669984364]
顔検出およびぼかしアルゴリズムを適用し、複数の人気人物再識別データセットの匿名化バージョンを作成する。
我々は,この匿名化が標準メトリクスを用いた再識別性能に与える影響を評価する。
論文 参考訳(メタデータ) (2020-10-13T11:47:16Z) - Assessing Demographic Bias in Named Entity Recognition [0.21485350418225244]
合成コーパスを用いたグループ間における英語の固有認識システムのバイアス評価を行った。
ELMoのような文字ベースの文脈化された単語表現モデルは、人口統計学において最小のバイアスをもたらす。
論文 参考訳(メタデータ) (2020-08-08T02:01:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。