論文の概要: A Comparative Study of Light-weight Language Models for PII Masking and their Deployment for Real Conversational Texts
- arxiv url: http://arxiv.org/abs/2512.18608v1
- Date: Sun, 21 Dec 2025 05:58:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.418213
- Title: A Comparative Study of Light-weight Language Models for PII Masking and their Deployment for Real Conversational Texts
- Title(参考訳): PIIマスキングのための軽量言語モデルと実際の会話テキストへの展開の比較検討
- Authors: Prabigya Acharya, Liza Shrestha,
- Abstract要約: 個人識別情報の自動マスキング(PII)は,プライバシ保護型会話システムにおいて重要である。
AI4Privacyベンチマークから構築した英語データセットに対して,T5-smallとMistral-Instruct-v0.3を微調整することで,エンコーダデコーダとデコーダのみのアーキテクチャを比較した。
PIIマスキングタスクのフロンティアLLMに匹敵する性能を実現するために,エンティティレベルとキャラクタレベルのメトリクス,タイプ精度,正確なマッチングを用いた評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated masking of Personally Identifiable Information (PII) is critical for privacy-preserving conversational systems. While current frontier large language models demonstrate strong PII masking capabilities, concerns about data handling and computational costs motivate exploration of whether lightweight models can achieve comparable performance. We compare encoder-decoder and decoder-only architectures by fine-tuning T5-small and Mistral-Instruct-v0.3 on English datasets constructed from the AI4Privacy benchmark. We create different dataset variants to study label standardization and PII representation, covering 24 standardized PII categories and higher-granularity settings. Evaluation using entity-level and character-level metrics, type accuracy, and exact match shows that both lightweight models achieve performance comparable to frontier LLMs for PII masking tasks. Label normalization consistently improves performance across architectures. Mistral achieves higher F1 and recall with greater robustness across PII types but incurs significantly higher generation latency. T5, while less robust in conversational text, offers more controllable structured outputs and lower inference cost, motivating its use in a real-time Discord bot for real-world PII redaction. Evaluation on live messages reveals performance degradation under informal inputs. These results clarify trade-offs between accuracy, robustness, and computational efficiency, demonstrating that lightweight models can provide effective PII masking while addressing data handling concerns associated with frontier LLMs.
- Abstract(参考訳): 個人識別情報の自動マスキング(PII)は,プライバシ保護型会話システムにおいて重要である。
現在のフロンティアの大規模言語モデルは強力なPIIマスキング能力を示しているが、データ処理と計算コストに関する懸念は、軽量モデルが同等のパフォーマンスを達成できるかどうかを探求する動機となっている。
AI4Privacyベンチマークから構築した英語データセットに対して,T5-smallとMistral-Instruct-v0.3を微調整することで,エンコーダデコーダとデコーダのみのアーキテクチャを比較した。
我々は、ラベルの標準化とPII表現を研究するために異なるデータセットの変種を作成し、24の標準化されたPIIカテゴリとより高い粒度設定をカバーした。
PIIマスキングタスクのフロンティアLLMに匹敵する性能を実現するために,エンティティレベルとキャラクタレベルのメトリクス,タイプ精度,正確なマッチングを用いた評価を行った。
ラベルの正規化はアーキテクチャ全体のパフォーマンスを一貫して改善する。
Mistralはより高いF1を実現し、PIIタイプでより堅牢なリコールを実現するが、生成レイテンシが大幅に向上する。
T5は、会話テキストでは堅牢ではないが、より制御可能な構造化出力を提供し、推論コストを低減し、現実世界のPIIリアクションのためにリアルタイムDiscordボットでの使用を動機付けている。
ライブメッセージの評価は、非公式な入力による性能劣化を示す。
これらの結果は精度,堅牢性,計算効率のトレードオフを明らかにし,軽量モデルがフロンティアLSMに関連するデータ処理問題に対処しながら効果的なPIIマスキングを実現できることを示した。
関連論文リスト
- Discourse Features Enhance Detection of Document-Level Machine-Generated Content [53.41994768824785]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
既存のMGC検出器は、しばしば表面レベルの情報のみに焦点を当て、暗黙的かつ構造的な特徴を見渡す。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - RIRO: Reshaping Inputs, Refining Outputs Unlocking the Potential of Large Language Models in Data-Scarce Contexts [0.0]
大規模言語モデル (LLM) は、テキスト生成、要約、質問応答といった分野において優れた、かなり高度な自然言語処理を持つ。
それらの能力にもかかわらず、これらのモデルは、小さなドメイン固有のデータセットに微調整された場合、課題に直面します。
本稿では,データスカース環境の性能向上を目的とした新しい2層アーキテクチャRIROを紹介する。
論文 参考訳(メタデータ) (2024-12-15T15:48:37Z) - The Inter-Intra Modal Measure: A Predictive Lens on Fine-Tuning Outcomes in Vision-Language Models [6.7181844004432385]
Intra Modal Measure (IIMM) は、モーダル内画像の類似性とモーダル間不一致の関係を定量化する予測指標である。
既存の転送可能性測定と比較して、IIMMはデュアルエンコーダモデルにおける微調整後の精度変化に対して、はるかに強い予測力を示す。
我々は、IIMMの変化が、事前と後調整の埋め込みの間のワッサーシュタイン距離によって制限されていることを証明した理論的境界を与える。
論文 参考訳(メタデータ) (2024-07-22T15:35:09Z) - A Context-Aware Approach for Enhancing Data Imputation with Pre-trained Language Models [0.18416014644193068]
CRILMは、事前訓練された言語モデルを使用して、不足する値に対してコンテキストに関連のある記述子を作成する。
本評価は,MCAR,MAR,MNARシナリオにおけるCRILMの優れた性能とロバスト性を示す。
論文 参考訳(メタデータ) (2024-05-28T00:08:29Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - Mixture of Soft Prompts for Controllable Data Generation [21.84489422361048]
直接予測ではなく,データ拡張のためのツールとして,ソフトプロンプトの混合(MSP)を提案する。
提案手法は, 強いベースラインと比較した場合の3つのベンチマークに対して, 最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-02T21:13:56Z) - Pre-trained Language Models for Keyphrase Generation: A Thorough
Empirical Study [76.52997424694767]
事前学習言語モデルを用いて,キーフレーズ抽出とキーフレーズ生成の詳細な実験を行った。
PLMは、競争力のある高リソース性能と最先端の低リソース性能を持つことを示す。
さらに,領域内のBERTライクなPLMを用いて,強大かつデータ効率のよいキーフレーズ生成モデルを構築できることが示唆された。
論文 参考訳(メタデータ) (2022-12-20T13:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。