論文の概要: Unmasking the Reality of PII Masking Models: Performance Gaps and the Call for Accountability
- arxiv url: http://arxiv.org/abs/2504.12308v1
- Date: Sat, 05 Apr 2025 04:34:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-20 05:34:58.887180
- Title: Unmasking the Reality of PII Masking Models: Performance Gaps and the Call for Accountability
- Title(参考訳): PIIマスキングモデルの現実を解き明かす:パフォーマンスギャップと説明責任の要求
- Authors: Devansh Singh, Sundaraparipurnan Narayanan,
- Abstract要約: 16種類のPIIを含む17K, 半合成文のデータセットを提案する。
我々は、これらのPIIを含む文を5つの異なるNER検出特徴次元で生成する。
結果を示し、そのようなモデルの使用によって引き起こされるプライバシの露出を示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Privacy Masking is a critical concept under data privacy involving anonymization and de-anonymization of personally identifiable information (PII). Privacy masking techniques rely on Named Entity Recognition (NER) approaches under NLP support in identifying and classifying named entities in each text. NER approaches, however, have several limitations including (a) content sensitivity including ambiguous, polysemic, context dependent or domain specific content, (b) phrasing variabilities including nicknames and alias, informal expressions, alternative representations, emerging expressions, evolving naming conventions and (c) formats or syntax variations, typos, misspellings. However, there are a couple of PII datasets that have been widely used by researchers and the open-source community to train models on PII detection or masking. These datasets have been used to train models including Piiranha and Starpii, which have been downloaded over 300k and 580k times on HuggingFace. We examine the quality of the PII masking by these models given the limitations of the datasets and of the NER approaches. We curate a dataset of 17K unique, semi-synthetic sentences containing 16 types of PII by compiling information from across multiple jurisdictions including India, U.K and U.S. We generate sentences (using language models) containing these PII at five different NER detection feature dimensions - (1) Basic Entity Recognition, (2) Contextual Entity Disambiguation, (3) NER in Noisy & Real-World Data, (4) Evolving & Novel Entities Detection and (5) Cross-Lingual or multi-lingual NER) and 1 in adversarial context. We present the results and exhibit the privacy exposure caused by such model use (considering the extent of lifetime downloads of these models). We conclude by highlighting the gaps in measuring performance of the models and the need for contextual disclosure in model cards for such models.
- Abstract(参考訳): プライバシ・マスキング(英: Privacy Masking)は、個人識別可能な情報の匿名化と匿名化を含む、データプライバシの下で重要な概念である(PII)。
プライバシマスキング技術は、NLPサポートの下で名前付きエンティティ認識(NER)アプローチに依存し、各テキストで名前付きエンティティを識別し分類する。
しかし、NERアプローチにはいくつかの制限がある。
(a)曖昧性、多意味性、文脈依存性、ドメイン固有の内容を含む内容感度。
(b)あだ名やエイリアス、非公式表現、代替表現、新興表現、命名規則の進化等の変種
(c) フォーマットや構文のバリエーション,タイプミス,ミススペルなどです。
しかしながら、研究者やオープンソースコミュニティによって、PII検出やマスキングのモデルをトレーニングするために広く使用されているいくつかのPIIデータセットがある。
これらのデータセットは、HuggingFaceで300kと580k以上ダウンロードされたPiiranhaやStarpiiなどのモデルのトレーニングに使用されている。
我々は,これらのモデルによるPIIマスキングの品質について,データセットとNERアプローチの限界から検討する。
16種類のPIIを含む17Kのユニークな半合成文のデータセットを、インド、英国、米国を含む複数の司法管轄区域から情報をコンパイルすることによって、キュレートする。
1) 基本エンティティ認識,(2) コンテキストエンティティの曖昧さ,(3) ノイズと実世界データにおけるNER,(4) 進化と新規エンティティ検出,(5) 言語間・多言語NER,1 の5つの異なるNER検出特徴次元でこれらのPIIを含む文(言語モデルを用いて)を生成する。
本稿では,このようなモデルの使用によって生じるプライバシー侵害(これらのモデルが生涯ダウンロードされる程度)について報告する。
本稿では,モデルの性能測定におけるギャップと,そのようなモデルに対するモデルカードにおける文脈情報開示の必要性を強調した。
関連論文リスト
- TUNI: A Textual Unimodal Detector for Identity Inference in CLIP Models [12.497110441765274]
CLIPモデルにおけるID推論の既存の方法は、完全なPIIでモデルをクエリする必要がある。
画像を適用することで、ターゲットモデルに個人情報を公開するリスクが生じる可能性がある。
本稿では,CLIPモデルにおけるテキスト・ユニモーダル・ディテクター(TUNI)を提案する。1)テキストデータのみを使用してターゲットモデルに問い合わせること,2)シャドウモデルをトレーニングする必要がなくなること,である。
論文 参考訳(メタデータ) (2024-05-23T12:54:25Z) - Is my Data in your AI Model? Membership Inference Test with Application to Face Images [18.402616111394842]
この記事では、AI/MLモデルのトレーニング中に与えられたデータが使用されているかどうかを経験的に評価することを目的とした新しいアプローチである、メンバシップ推論テスト(MINT)を紹介します。
本稿では,学習過程に使用されるデータに監査モデルが露出した場合に現れるアクティベーションパターンを学習するための2つのMINTアーキテクチャを提案する。
実験は6つの公開データベースを使って行われ、合計で2200万以上の顔画像で構成されている。
論文 参考訳(メタデータ) (2024-02-14T15:09:01Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z) - Uncertainty-Autoencoder-Based Privacy and Utility Preserving Data Type
Conscious Transformation [3.7315964084413173]
プライバシ・ユーティリティのトレードオフ問題に対処する逆学習フレームワークを2つの条件で提案する。
データタイプの無知な条件下では、プライバシメカニズムは、正確に1つのクラスを表す、カテゴリ機能の1ホットエンコーディングを提供する。
データ型認識条件下では、分類変数は各クラスごとに1つのスコアの集合で表される。
論文 参考訳(メタデータ) (2022-05-04T08:40:15Z) - Exploring Multi-Modal Representations for Ambiguity Detection &
Coreference Resolution in the SIMMC 2.0 Challenge [60.616313552585645]
会話型AIにおける効果的なあいまいさ検出と参照解決のためのモデルを提案する。
具体的には,TOD-BERTとLXMERTをベースとしたモデルを用いて,多数のベースラインと比較し,アブレーション実験を行う。
以上の結果から,(1)言語モデルでは曖昧さを検出するためにデータの相関を活用でき,(2)言語モデルではビジョンコンポーネントの必要性を回避できることがわかった。
論文 参考訳(メタデータ) (2022-02-25T12:10:02Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。