論文の概要: An Evaluation Study of Hybrid Methods for Multilingual PII Detection
- arxiv url: http://arxiv.org/abs/2510.07551v1
- Date: Wed, 08 Oct 2025 21:03:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.737285
- Title: An Evaluation Study of Hybrid Methods for Multilingual PII Detection
- Title(参考訳): 多言語PII検出のためのハイブリッド手法の評価
- Authors: Harshit Rajgarhia, Suryam Gupta, Asif Shaik, Gulipalli Praveen Kumar, Y Santhoshraj, Sanka Nithya Tanvy Nishitha, Abhishek Mukherji,
- Abstract要約: 本稿では,決定論的正規表現と文脈認識型大規模言語モデル(LLM)を組み合わせて,スケーラブルなPII検出を行うRECAPを提案する。
重み付きF1スコアでは,NERモデルでは82%,ゼロショットLLMでは17%の精度で性能が向上した。
この作業は、コンプライアンスにフォーカスしたアプリケーションにおいて、効率的なPII検出のためのスケーラブルで適応可能なソリューションを提供する。
- 参考スコア(独自算出の注目度): 0.026059379504241156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The detection of Personally Identifiable Information (PII) is critical for privacy compliance but remains challenging in low-resource languages due to linguistic diversity and limited annotated data. We present RECAP, a hybrid framework that combines deterministic regular expressions with context-aware large language models (LLMs) for scalable PII detection across 13 low-resource locales. RECAP's modular design supports over 300 entity types without retraining, using a three-phase refinement pipeline for disambiguation and filtering. Benchmarked with nervaluate, our system outperforms fine-tuned NER models by 82% and zero-shot LLMs by 17% in weighted F1-score. This work offers a scalable and adaptable solution for efficient PII detection in compliance-focused applications.
- Abstract(参考訳): プライバシコンプライアンスにはPII(Personally Identible Information)の検出が不可欠だが,言語的多様性と限られた注釈付きデータのため,低リソース言語では依然として困難である。
本稿では,決定論的正規表現と文脈認識型大規模言語モデル(LLM)を組み合わせるハイブリッドフレームワークRECAPを提案する。
RECAPのモジュラー設計は300以上のエンティティタイプを再トレーニングせずにサポートしており、曖昧さとフィルタリングのために3フェーズのリファインメントパイプラインを使用している。
重み付きF1スコアでは,NERモデルでは82%,ゼロショットLLMでは17%の精度で性能が向上した。
この作業は、コンプライアンスにフォーカスしたアプリケーションにおいて、効率的なPII検出のためのスケーラブルで適応可能なソリューションを提供する。
関連論文リスト
- Scalable multilingual PII annotation for responsible AI in LLMs [0.0917536845617986]
この研究は、13の未表現ローカライズにまたがる高品質なPIIアノテーションのために設計されたスケーラブルな多言語データキュレーションフレームワークを導入する。
我々のフェーズド・ヒューマン・イン・ザ・ループの方法論は、言語学の専門知識と厳格な品質保証を組み合わせることで、リコールと偽陽性率を大幅に改善する。
論文 参考訳(メタデータ) (2025-10-03T21:40:31Z) - Prompt-Based Simplification for Plain Language using Spanish Language Models [0.6299766708197881]
本稿では,LearS 2025 Subtask 1: Adaptation of Text to Plain Language (PL) in Spanishについて述べる。
我々は、プロンプトエンジニアリングを用いたゼロショット構成やローランド適応(LoRA)を用いた微調整版など、スペイン語のテキストで訓練されたモデルに基づく戦略を探求した。
最終的なシステムはバランスよく一貫した性能で選択され、正規化ステップ、RigoChat-7B-v2モデル、PL指向のプロンプトが組み合わされた。
論文 参考訳(メタデータ) (2025-09-21T19:28:37Z) - SLRTP2025 Sign Language Production Challenge: Methodology, Results, and Future Work [87.9341538630949]
第1回手話生産チャレンジはCVPR 2025で第3回SLRTPワークショップの一環として開催された。
コンペティションの目的は、音声言語文からスケルトンポーズのシーケンスに変換するアーキテクチャを評価することである。
本稿では,挑戦設計と入賞方法について述べる。
論文 参考訳(メタデータ) (2025-08-09T11:57:33Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Syntactic Control of Language Models by Posterior Inference [53.823006836309695]
言語モデルによって生成されたテキストの構文構造を制御することは、明快さ、スタイリスティックな一貫性、解釈可能性を必要とするアプリケーションにとって重要である。
後部推論に基づくサンプリングアルゴリズムは、生成中に対象の選挙区構造を効果的に強制することができると論じる。
提案手法では,提案分布からのサンプリングにより後続分布を推定するモンテカルロ法と,各生成したトークンが所望の構文構造に整合することを保証する統語タグを併用する。
論文 参考訳(メタデータ) (2025-06-08T14:01:34Z) - The NTNU System at the S&I Challenge 2025 SLA Open Track [10.11220261280201]
スコア融合戦略を用いて,W2VとPhi-4マルチモーダル大言語モデル(MLLM)を統合するシステムを提案する。
提案システムは,Speak & Improve Challenge 2025の公式テストセットにおいて,0.375の根平均二乗誤差(RMSE)を達成する。
比較すると、トップランク、サードランク、オフィシャルベースラインのRMSEはそれぞれ0.364、0.384、0.444である。
論文 参考訳(メタデータ) (2025-06-05T15:09:23Z) - AutoLogi: Automated Generation of Logic Puzzles for Evaluating Reasoning Abilities of Large Language Models [86.83875864328984]
本稿では,オープンエンド論理パズルを自動合成する手法を提案し,それをバイリンガルベンチマークであるAutoLogiの開発に利用する。
提案手法は,プログラムベースの検証と制御可能な難易度を特徴とし,モデルの推論能力をよりよく区別する信頼性の高い評価を可能にする。
論文 参考訳(メタデータ) (2025-02-24T07:02:31Z) - On the N-gram Approximation of Pre-trained Language Models [17.764803904135903]
大規模事前学習型言語モデル(PLM)は、様々な自然言語理解(NLU)タスクにおいて顕著な性能を示している。
本研究では,自動音声認識(ASR)における言語モデリングにおけるPLMの有用性について検討する。
我々は,GPT-2をn-gramモデルに近似するための大規模テキストサンプリングと確率変換の適用について比較した。
論文 参考訳(メタデータ) (2023-06-12T06:42:08Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。