論文の概要: PIIBench: A Unified Multi-Source Benchmark Corpus for Personally Identifiable Information Detection
- arxiv url: http://arxiv.org/abs/2604.15776v1
- Date: Fri, 17 Apr 2026 07:32:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.792118
- Title: PIIBench: A Unified Multi-Source Benchmark Corpus for Personally Identifiable Information Detection
- Title(参考訳): PIIBench: 個人が特定可能な情報検出のための統一型マルチソースベンチマークコーパス
- Authors: Pritesh Jha,
- Abstract要約: PIIBenchは、自然言語テキストにおけるPII(Personally Identible Information)検出のための統一されたベンチマークコーパスである。
我々は、合成PIIコーパス、多言語名前付きエンティティ認識(NER)ベンチマーク、ファイナンシャルドメイン注釈テキストにまたがる10の公開データセットを統合する。
アノテーション付き配列2,369,883のコーパスと,48種類の標準PIIエンティティタイプに335万のエンティティが記述されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present PIIBench, a unified benchmark corpus for Personally Identifiable Information (PII) detection in natural language text. Existing resources for PII detection are fragmented across domain-specific corpora with mutually incompatible annotation schemes, preventing systematic comparison of detection systems. We consolidate ten publicly available datasets spanning synthetic PII corpora, multilingual Named Entity Recognition (NER) benchmarks, and financial domain annotated text, yielding a corpus of 2,369,883 annotated sequences and 3.35 million entity mentions across 48 canonical PII entity types. We develop a principled normalization pipeline that maps 80+ source-specific label variants to a standardized BIO tagging scheme, applies frequency-based suppression of near absent entity types, and produces stratified 80/10/10 train/validation/test splits preserving source distribution. To establish baseline difficulty, we evaluate eight published systems spanning rule-based engines (Microsoft Presidio), general purpose NER models (spaCy, BERT-base NER, XLM-RoBERTa NER, SpanMarker mBERT, SpanMarker BERT), a PII-specific model (Piiranha DeBERTa), and a financial NER specialist (XtremeDistil FiNER). All systems achieve span-level F1 below 0.14, with the best system (Presidio, F1=0.1385) still producing zero recall on most entity types. These results directly quantify the domain-silo problem and demonstrate that PIIBench presents a substantially harder and more comprehensive evaluation challenge than any existing single source PII dataset. The dataset construction pipeline and benchmark evaluation code are publicly available at https://github.com/pritesh-2711/pii-bench.
- Abstract(参考訳): 自然言語テキストにおける個人識別情報(PII)検出のための統一ベンチマークコーパスであるPIIBenchを提案する。
PII検出のための既存のリソースは、相互に互換性のないアノテーションスキームでドメイン固有のコーパス間で断片化され、検出システムの体系的比較が防止される。
我々は、合成PIIコーパス、多言語名前付きエンティティ認識(NER)ベンチマーク、金融ドメイン注釈テキストにまたがる10の公開データセットを集約し、48の標準PIIエンティティタイプにわたる2,369,883のアノテートシーケンスと335万のエンティティのコーパスを生成する。
我々は,80以上のソース固有ラベルを標準化されたBIOタグ方式にマッピングし,周波数ベースで非存在型を抑圧し,階層化された80/10/10トレイン/バリデーション/テストスプリットを生成し,ソース分布を保存できる基本正規化パイプラインを開発した。
ルールベースエンジン(Microsoft Presidio)、汎用NERモデル(spaCy, BERT-base NER, XLM-RoBERTa NER, SpanMarker mBERT, SpanMarker BERT)、PII特化モデル(Piiranha DeBERTa)、金融NERスペシャリスト(XtremeDistil FiNER)を対象とする8つのシステムの評価を行った。
すべてのシステムは0.14未満のスパンレベルF1を達成し、最も優れたシステム(Presidio, F1=0.1385)は、ほとんどのエンティティタイプでリコールをゼロにする。
これらの結果はドメインサイロ問題を直接的に定量化し、PIIBenchが既存の任意の単一ソースPIIデータセットよりもはるかに困難で包括的な評価課題を提示することを示した。
データセット構築パイプラインとベンチマーク評価コードはhttps://github.com/pritesh-2711/pii-bench.comで公開されている。
関連論文リスト
- BRIDGE and TCH-Net: Heterogeneous Benchmark and Multi-Branch Baseline for Cross-Domain IoT Botnet Detection [1.2019888796331233]
IoTボットネット検出は進歩しているが、ほとんどの公開システムは単一のデータセットで検証されており、環境全体にわたって一般化されることはめったにない。
BRIDGEは、IoT侵入検知のための、初めて公式に指定された異種マルチデータセットベンチマークである。
我々は,LODO F1 = 0.5577 において,単一ベンチマーク最適化からクロス環境一般化へとアジェンダをシフトさせる最初のコミュニティ一般化ベースラインを確立する。
論文 参考訳(メタデータ) (2026-04-13T11:25:39Z) - Binary Token-Level Classification with DeBERTa for All-Type MWE Identification: A Lightweight Approach with Linguistic Enhancement [1.8429656136522097]
本稿では,バイナリトークンレベルの分類,言語的特徴の統合,データ拡張を組み合わせた,MWE識別のための包括的アプローチを提案する。
我々のDeBERTa-v3大規模モデルは、CoAMデータセット上で69.8%のF1を達成し、このデータセットで最高の結果(Qwen-72B, 57.8% F1)を12ポイント上回り、パラメータは165倍少ない。
論文 参考訳(メタデータ) (2026-01-27T08:42:54Z) - An Evaluation Study of Hybrid Methods for Multilingual PII Detection [0.026059379504241156]
本稿では,決定論的正規表現と文脈認識型大規模言語モデル(LLM)を組み合わせて,スケーラブルなPII検出を行うRECAPを提案する。
重み付きF1スコアでは,NERモデルでは82%,ゼロショットLLMでは17%の精度で性能が向上した。
この作業は、コンプライアンスにフォーカスしたアプリケーションにおいて、効率的なPII検出のためのスケーラブルで適応可能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-08T21:03:59Z) - MCP-Orchestrated Multi-Agent System for Automated Disinformation Detection [84.75972919995398]
本稿では,関係抽出を用いてニュース記事の偽情報を検出するマルチエージェントシステムを提案する。
提案したエージェントAIシステムは、(i)機械学習エージェント(ロジスティック回帰)、(ii)Wikipedia知識チェックエージェント、(iv)Webスクラッドデータアナライザの4つのエージェントを組み合わせる。
その結果、マルチエージェントアンサンブルはF1スコア0.964で95.3%の精度を達成し、個々のエージェントや従来のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-13T19:14:48Z) - ForensicHub: A Unified Benchmark & Codebase for All-Domain Fake Image Detection and Localization [54.64604722756443]
ForensicHubは、オールドメインの偽画像検出とローカライゼーションのための最初の統一ベンチマークである。
科学的なパイプラインをデータセット、変換、モデル、評価者間で交換可能なコンポーネントに分解する。
FIDLモデルアーキテクチャ、データセットの特徴、評価標準に関する8つの重要な実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-05-16T08:49:59Z) - SNaRe: Domain-aware Data Generation for Low-Resource Event Detection [77.32937742071475]
事象検出は、生物医学、法学、疫学のような高度に専門化された領域での推論を可能にするために重要である。
SNaReは、Scout、Narrator、Refinerの3つのコンポーネントから構成される、ドメイン対応の合成データ生成フレームワークである。
Scoutはラベルのないターゲットドメインデータからトリガーを抽出し、高品質なドメイン固有のトリガーリストをキュレートする。
これらのトリガに条件付けされたナレーターは、高品質なドメイン整列文を生成し、Refinerは追加のイベント参照を識別する。
論文 参考訳(メタデータ) (2025-02-24T18:20:42Z) - Responsible AI in NLP: GUS-Net Span-Level Bias Detection Dataset and Benchmark for Generalizations, Unfairness, and Stereotypes [6.30817290125825]
本稿では、GUSデータセットとマルチラベルトークンレベル検出器を組み合わせたGUS-Net Frameworkを紹介し、社会バイアスのスパンレベル分析を行う。
GUSデータセットには、複数のドメインにまたがる3,739のユニークなスニペットが含まれ、69,000以上のトークンレベルのアノテーションが含まれている。
マルチラベルトークンレベルの分類としてバイアス検出を定式化し,エンコーダベースモデルとデコーダベース大規模言語モデルの両方をベンチマークする。
論文 参考訳(メタデータ) (2024-10-10T21:51:22Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Dual Refinement Feature Pyramid Networks for Object Detection [2.88935873409577]
FPNは、オブジェクト検出器で使われる一般的なコンポーネントであり、隣り合うレベルの特徴と和によって、マルチスケール情報を補う。
本稿では,画素レベルと特徴マップレベルから設計欠陥を解析する。
本研究では,パラメータフリーな特徴ピラミッドネットワークであるDual Refinement Feature Pyramid Networksを設計した。
論文 参考訳(メタデータ) (2020-12-03T07:17:03Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。