論文の概要: GLiNER2-PII: A Multilingual Model for Personally Identifiable Information Extraction
- arxiv url: http://arxiv.org/abs/2605.09973v1
- Date: Mon, 11 May 2026 04:29:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.523602
- Title: GLiNER2-PII: A Multilingual Model for Personally Identifiable Information Extraction
- Title(参考訳): GLiNER2-PII: 個人識別可能な情報抽出のための多言語モデル
- Authors: Urchade Zaratiana, Ash Lewis, George Hurn-Maloney,
- Abstract要約: GLiNER2-PIIはGLiNER2から適応した0.3Bパラメータモデルであり,文字スパン分解能において42種類のPIIエンティティタイプを広範囲に分類する。
このようなシステムのトレーニングは、共有可能な注釈付きデータの不足と、実際のPIIを大規模に収集する際のプライバシーリスクに制約されている。
我々はHugging Faceのモデルをリリースし、オープンなPII検出システムのさらなる研究と実践的な展開を支援する。
- 参考スコア(独自算出の注目度): 6.46529664618265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable detection of personally identifiable information (PII) is increasingly important across modern data-processing systems, yet the task remains difficult: PII spans are heterogeneous, locale-dependent, context-sensitive, and often embedded in noisy or semi-structured documents. We present GLiNER2-PII, a small 0.3B-parameter model adapted from GLiNER2 and designed to recognize a broad taxonomy of 42 PII entity types at character-span resolution. Training such systems, however, is constrained by the scarcity of shareable annotated data and the privacy risks associated with collecting real PII at scale. To address this challenge, we construct a multilingual synthetic corpus of 4,910 annotated texts using a constraint-driven generation pipeline that produces diverse, realistic examples across languages, domains, formats, and entity distributions. On the challenging SPY benchmark, GLiNER2-PII achieves the highest span-level F1 among five compared systems, including OpenAI Privacy Filter and three GLiNER-based detectors. We publicly release the model on Hugging Face to support further research and practical deployment of open PII detection systems.
- Abstract(参考訳): 個人識別可能な情報(PII)の信頼性の高い検出は、現代のデータ処理システムにおいてますます重要になっているが、タスクは依然として困難である: PIIスパンは異質で、局所的に依存し、文脈に敏感であり、ノイズや半構造化文書にしばしば埋め込まれる。
本稿では,GLiNER2を用いた0.3BパラメータモデルであるGLiNER2-PIIについて述べる。
しかし、そのようなシステムは、共有可能な注釈付きデータの不足と、実際のPIIを大規模に収集する際のプライバシーリスクに制約されている。
この課題に対処するため,制約駆動型生成パイプラインを用いて4,910個の注釈付きテキストからなる多言語合成コーパスを構築し,言語,ドメイン,フォーマット,エンティティ分布の多様な実例を生成する。
挑戦的なSPYベンチマークでは、GLiNER2-PIIはOpenAI Privacy Filterと3つのGLiNERベースの検出器を含む5つの比較システムの中で最高レベルのF1を達成する。
オープンなPII検出システムのさらなる研究および実践的な展開を支援するため,Hugging Faceのモデルを公開している。
関連論文リスト
- Why AI-Generated Text Detection Fails: Evidence from Explainable AI Beyond Benchmark Accuracy [0.9169660430821364]
本稿では,言語機能工学,機械学習,説明可能なAI技術を統合するフレームワークを提案する。
SHAPに基づく説明を用いて、最も影響力のある特徴がデータセットによって著しく異なることを示す。
この知識は、さまざまな設定で堅牢なAI検出器を構築するのに役立ちます。
論文 参考訳(メタデータ) (2026-03-24T12:46:15Z) - CAPID: Context-Aware PII Detection for Question-Answering Systems [2.538582648751871]
CAPIDは、ローカルに所有する小型言語モデル(SLM)を微調整し、QAのためにLLMに渡される前に機密情報をフィルタリングする実践的手法である。
既存のデータセットは、そのようなモデルを効果的に訓練するために必要なPIIの文脈依存の関連性を捉えていない。
実験の結果,細調整SLMを用いたPII検出は,既存のベースラインのスパン,関連性,型精度を大きく上回ることがわかった。
論文 参考訳(メタデータ) (2026-02-10T18:41:31Z) - Generalizable and Interpretable RF Fingerprinting with Shapelet-Enhanced Large Language Models [29.237426221761496]
ディープニューラルネットワーク(DNN)は、無線デバイス認証のためのRF指紋認証において顕著な成功を収めている。
可変長2次元(2次元)シェイプレット群と事前学習された大言語モデル(LLM)を統合して,効率的な,解釈可能な,一般化可能なRFフィンガープリントを実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-03T03:02:31Z) - A Comparative Study of Light-weight Language Models for PII Masking and their Deployment for Real Conversational Texts [0.0]
個人識別情報の自動マスキング(PII)は,プライバシ保護型会話システムにおいて重要である。
AI4Privacyベンチマークから構築した英語データセットに対して,T5-smallとMistral-Instruct-v0.3を微調整することで,エンコーダデコーダとデコーダのみのアーキテクチャを比較した。
PIIマスキングタスクのフロンティアLLMに匹敵する性能を実現するために,エンティティレベルとキャラクタレベルのメトリクス,タイプ精度,正確なマッチングを用いた評価を行った。
論文 参考訳(メタデータ) (2025-12-21T05:58:40Z) - MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing [117.58619053719251]
MinerU2.5は、例外的な計算効率を維持しつつ、最先端の認識精度を実現する文書解析モデルである。
提案手法では,局所的なコンテンツ認識からグローバルなレイアウト解析を分離する,粗大な2段階解析戦略を採用している。
論文 参考訳(メタデータ) (2025-09-26T10:45:48Z) - Unmasking the Reality of PII Masking Models: Performance Gaps and the Call for Accountability [0.0]
16種類のPIIを含む17K, 半合成文のデータセットを提案する。
我々は、これらのPIIを含む文を5つの異なるNER検出特徴次元で生成する。
結果を示し、そのようなモデルの使用によって引き起こされるプライバシの露出を示す。
論文 参考訳(メタデータ) (2025-04-05T04:34:05Z) - DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。
DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。
DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:01:44Z) - Communication-Efficient Personalized Federated Learning for Speech-to-Text Tasks [64.02867484165476]
プライバシー保護と法的規制を満たすために、連邦学習(FL)は、音声テキスト(S2T)システムのトレーニングにおいて大きな注目を集めている。
S2Tタスクで一般的に使用されるFLアプローチ(textscFedAvg)は、通常、広範な通信オーバーヘッドに悩まされる。
我々は、クライアント側チューニングとサーバとのインタラクションのための軽量なLoRAモジュールであるtextscFedLoRA と、$k$-near を備えたグローバルモデルである textscFedMem を導入したパーソナライズされたS2Tフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T15:39:38Z) - PIN: A Novel Parallel Interactive Network for Spoken Language
Understanding [68.53121591998483]
既存の RNN ベースのアプローチでは、ID と SF のタスクは、それらの間の相関情報を利用するために、しばしば共同でモデル化される。
SNIPSとATISという2つのベンチマークデータセットによる実験は、我々のアプローチの有効性を実証している。
さらに,事前学習した言語モデルBERTが生成した発話の特徴埋め込みを用いて,提案手法はすべての比較手法の中で最先端の手法を実現する。
論文 参考訳(メタデータ) (2020-09-28T15:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。