論文の概要: CAPID: Context-Aware PII Detection for Question-Answering Systems
- arxiv url: http://arxiv.org/abs/2602.10074v1
- Date: Tue, 10 Feb 2026 18:41:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.748967
- Title: CAPID: Context-Aware PII Detection for Question-Answering Systems
- Title(参考訳): CAPID:質問応答システムにおける文脈認識型PII検出
- Authors: Mariia Ponomarenko, Sepideh Abedini, Masoumeh Shafieinejad, D. B. Emerson, Shubhankar Mohapatra, Xi He,
- Abstract要約: CAPIDは、ローカルに所有する小型言語モデル(SLM)を微調整し、QAのためにLLMに渡される前に機密情報をフィルタリングする実践的手法である。
既存のデータセットは、そのようなモデルを効果的に訓練するために必要なPIIの文脈依存の関連性を捉えていない。
実験の結果,細調整SLMを用いたPII検出は,既存のベースラインのスパン,関連性,型精度を大きく上回ることがわかった。
- 参考スコア(独自算出の注目度): 2.538582648751871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting personally identifiable information (PII) in user queries is critical for ensuring privacy in question-answering systems. Current approaches mainly redact all PII, disregarding the fact that some of them may be contextually relevant to the user's question, resulting in a degradation of response quality. Large language models (LLMs) might be able to help determine which PII are relevant, but due to their closed source nature and lack of privacy guarantees, they are unsuitable for sensitive data processing. To achieve privacy-preserving PII detection, we propose CAPID, a practical approach that fine-tunes a locally owned small language model (SLM) that filters sensitive information before it is passed to LLMs for QA. However, existing datasets do not capture the context-dependent relevance of PII needed to train such a model effectively. To fill this gap, we propose a synthetic data generation pipeline that leverages LLMs to produce a diverse, domain-rich dataset spanning multiple PII types and relevance levels. Using this dataset, we fine-tune an SLM to detect PII spans, classify their types, and estimate contextual relevance. Our experiments show that relevance-aware PII detection with a fine-tuned SLM substantially outperforms existing baselines in span, relevance and type accuracy while preserving significantly higher downstream utility under anonymization.
- Abstract(参考訳): ユーザクエリにおける個人識別情報(PII)の検出は,質問応答システムにおけるプライバシの確保に不可欠である。
現在のアプローチは、主に全てのPIIを再実行し、それらのいくつかはユーザーの質問に文脈的に関連しているかもしれないという事実を無視し、結果として応答品質が低下する。
大きな言語モデル(LLM)は、どのPIIが関係しているかを決定するのに役立つかもしれないが、そのクローズドソースの性質とプライバシー保証の欠如のため、機密データ処理には適さない。
プライバシ保護のためのPII検出を実現するために,我々はローカルに所有する小型言語モデル(SLM)を微調整し,QAのためにLLMに渡す前に機密情報をフィルタリングするCAPIDを提案する。
しかし、既存のデータセットは、そのようなモデルを効果的に訓練するために必要なPIIの文脈依存の関連性を捉えていない。
このギャップを埋めるために,複数のPIIタイプと関連レベルにまたがる多種多様なドメイン豊富なデータセットを生成するために,LLMを利用する合成データ生成パイプラインを提案する。
このデータセットを用いて、SLMを微調整し、PIIスパンを検出し、それらの型を分類し、文脈関連性を推定する。
実験の結果, 細調整SLMによるPII検出は, 既存のベースラインに比べて, 精度, 妥当性, タイプ精度を著しく向上し, 匿名化下では下流ユーティリティを著しく高めていることがわかった。
関連論文リスト
- PRvL: Quantifying the Capabilities and Risks of Large Language Models for PII Redaction [0.7421845364041001]
非構造化テキストからのPII(Personally Identible Information)のリアクションは、規制されたドメインにおけるデータのプライバシを確保するために重要である。
大規模言語モデル(LLM)の最近の進歩は、有望な代替手段を提供する。
プライバシ保護型PIIリアクションシステムとしてLLMを包括的に分析する。
我々はPRvLをリリースした。PRvLは細調整されたモデルと汎用PIIリアクションのための評価ツールである。
論文 参考訳(メタデータ) (2025-08-07T16:22:49Z) - PII-Bench: Evaluating Query-Aware Privacy Protection Systems [10.52362814808073]
本稿では,プライバシ保護システムを評価するための総合的な評価フレームワークであるPII-Benchを提案する。
PII-Benchは55の細粒度PIIカテゴリにまたがる2,842の試験サンプルから構成されており、単目的記述から複雑な多人数インタラクションまで多様なシナリオが特徴である。
論文 参考訳(メタデータ) (2025-02-25T14:49:08Z) - FedDTPT: Federated Discrete and Transferable Prompt Tuning for Black-Box Large Language Models [14.719919025265224]
特定のシナリオからのデータを調整した大きな言語モデル(LLM)は、プライバシリークのリスクを引き起こす。
ブラックボックス大言語モデルに対して,フェデレートされた離散的かつ転送可能なプロンプトチューニングであるFedDTPTを初めて提案する。
提案手法は,ブラックボックス設定における非IDデータに対する高い精度,通信オーバーヘッドの低減,ロバスト性を実現する。
論文 参考訳(メタデータ) (2024-11-01T19:19:23Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いた新しいクエリ性能予測(QPP)フレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
我々は,オープンソースの大規模言語モデル (LLM) を用いて,科学的妥当性を確保することにより,項目の関連性を予測する。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z) - Enhancing Information Maximization with Distance-Aware Contrastive
Learning for Source-Free Cross-Domain Few-Shot Learning [55.715623885418815]
クロスドメインのFew-Shot Learningメソッドは、トレーニング前のフェーズでモデルをトレーニングするために、ソースドメインデータにアクセスする必要がある。
データプライバシやデータ送信やトレーニングコストの削減に対する懸念が高まっているため,ソースデータにアクセスせずにCDFSLソリューションを開発する必要がある。
本稿では,これらの課題に対処するための距離対応コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-04T12:10:24Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - ProPILE: Probing Privacy Leakage in Large Language Models [38.92840523665835]
大規模言語モデル(LLM)は、しばしば大量のWebコンパイルデータに基づいて訓練される。
本稿では,PII リークの可能性を意識して,データ被写体や PII の所有者を支援する新しい探索ツールである ProPILE について述べる。
論文 参考訳(メタデータ) (2023-07-04T18:53:47Z) - SEAM: Searching Transferable Mixed-Precision Quantization Policy through
Large Margin Regularization [50.04951511146338]
混合精度量子化(MPQ)は各層に対して最適なビット幅割り当てを求めるのに時間を要する。
本稿では,小規模なプロキシデータセットを用いて効率的なMPQポリシーを効率的に検索する手法を提案する。
論文 参考訳(メタデータ) (2023-02-14T05:47:45Z) - On Taking Advantage of Opportunistic Meta-knowledge to Reduce
Configuration Spaces for Automated Machine Learning [11.670797168818773]
主要な研究課題は、パフォーマンスの悪いMLパイプラインのコスト評価を事前に回避できるかどうかである。
AutoWeka4MCPSパッケージによる多くの実験は、オポチュニティ/システムメタ知識がMLの結果を改善することを示唆している。
我々は、データセットの「チャレンジ」に対する強い感度、すなわち、予測子の選択における特異性によってパフォーマンスが著しく向上するかどうかを観察する。
論文 参考訳(メタデータ) (2022-08-08T19:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。