論文の概要: PBa-LLM: Privacy- and Bias-aware NLP using Named-Entity Recognition (NER)
- arxiv url: http://arxiv.org/abs/2507.02966v2
- Date: Wed, 09 Jul 2025 08:02:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 13:22:10.046539
- Title: PBa-LLM: Privacy- and Bias-aware NLP using Named-Entity Recognition (NER)
- Title(参考訳): PBa-LLM: Named-Entity Recognition (NER) を用いたプライバシとバイアス対応NLP
- Authors: Gonzalo Mancera, Aythami Morales, Julian Fierrez, Ruben Tolosana, Alejandro Penna, Miguel Lopez-Duran, Francisco Jurado, Alvaro Ortigosa,
- Abstract要約: 本研究では,Large Language Models(LLMs)のプライバシ保護トレーニングを容易にするために,NER(Named-Entity Recognition)の使用について検討する。
我々は,NER技術を用いて個人識別や地理的位置情報などのテキストデータ中の機密情報を匿名化するフレームワークを提案する。
この研究は2つの言語モデル(BERTとRoBERTa)と6つの匿名化アルゴリズム(Presidio、FLAIR、BERT、および異なるバージョンのGPT)を24,000の候補プロファイルのデータベースに適用した。
- 参考スコア(独自算出の注目度): 45.870212237420226
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The use of Natural Language Processing (NLP) in highstakes AI-based applications has increased significantly in recent years, especially since the emergence of Large Language Models (LLMs). However, despite their strong performance, LLMs introduce important legal/ ethical concerns, particularly regarding privacy, data protection, and transparency. Due to these concerns, this work explores the use of Named- Entity Recognition (NER) to facilitate the privacy-preserving training (or adaptation) of LLMs. We propose a framework that uses NER technologies to anonymize sensitive information in text data, such as personal identities or geographic locations. An evaluation of the proposed privacy-preserving learning framework was conducted to measure its impact on user privacy and system performance in a particular high-stakes and sensitive setup: AI-based resume scoring for recruitment processes. The study involved two language models (BERT and RoBERTa) and six anonymization algorithms (based on Presidio, FLAIR, BERT, and different versions of GPT) applied to a database of 24,000 candidate profiles. The findings indicate that the proposed privacy preservation techniques effectively maintain system performance while playing a critical role in safeguarding candidate confidentiality, thus promoting trust in the experimented scenario. On top of the proposed privacy-preserving approach, we also experiment applying an existing approach that reduces the gender bias in LLMs, thus finally obtaining our proposed Privacyand Bias-aware LLMs (PBa-LLMs). Note that the proposed PBa-LLMs have been evaluated in a particular setup (resume scoring), but are generally applicable to any other LLM-based AI application.
- Abstract(参考訳): AIベースのアプリケーションにおける自然言語処理(NLP)の利用は近年,特にLarge Language Models(LLMs)の出現以来,著しく増加している。
しかし、LLMは高いパフォーマンスにもかかわらず、特にプライバシー、データ保護、透明性に関する重要な法的・倫理的懸念を提起している。
これらの懸念から、LLMのプライバシ保護トレーニング(あるいは適応)を容易にするために、NER(Named-Entity Recognition)の使用を検討する。
我々は,NER技術を用いて個人識別や地理的位置情報などのテキストデータ中の機密情報を匿名化するフレームワークを提案する。
提案したプライバシ保護学習フレームワークの評価は,ユーザプライバシとシステムパフォーマンスへの影響を,特定の高い評価とセンシティブな設定で測定するために行われた。
この研究は2つの言語モデル(BERTとRoBERTa)と6つの匿名化アルゴリズム(Presidio、FLAIR、BERT、および異なるバージョンのGPT)を24,000の候補プロファイルのデータベースに適用した。
その結果,提案手法は,候補の秘密を守る上で重要な役割を担いながら,システム性能を効果的に維持し,実験シナリオへの信頼を高めることが示唆された。
提案するプライバシ保護アプローチに加えて,LLMの性別バイアスを低減する既存手法の適用実験を行い,最終的に提案したプライバシとバイアスを意識したLLM(PBa-LLMs)が得られた。
提案したPBa-LLMは特定の設定で評価されている(resume score)が、一般的に他のLLMベースのAIアプリケーションに適用できる。
関連論文リスト
- Privacy-Preserving Large Language Models: Mechanisms, Applications, and Future Directions [0.0]
本調査では,大規模言語モデルに適したプライバシ保護機構の展望について考察する。
メンバーシップ推論やモデル逆転攻撃といった重要なプライバシー問題に対処する上での有効性を検討する。
本稿では、最先端のアプローチと今後のトレンドを合成することによって、堅牢でプライバシーに配慮した大規模言語モデルを構築するための基盤を提供する。
論文 参考訳(メタデータ) (2024-12-09T00:24:09Z) - On Active Privacy Auditing in Supervised Fine-tuning for White-Box Language Models [7.275432177367344]
パーシングは、言語モデル(LM)の教師付き微調整中にプライバシー漏洩リスクを特定し定量化するように設計されている。
我々は,GPT-2,Llama2などの大規模LMに対するMIA(White-box Membering Inference attack)の有効性を改善した。
本研究の目的は,LMのSFTコミュニティに対して,信頼性と使用可能なプライバシ監査ツールの提供と,微調整プロセス中のプライバシ保護に関する貴重な洞察を提供することである。
論文 参考訳(メタデータ) (2024-11-11T15:46:07Z) - How Privacy-Savvy Are Large Language Models? A Case Study on Compliance and Privacy Technical Review [15.15468770348023]
プライバシ情報抽出(PIE)、法および規制キーポイント検出(KPD)、質問応答(QA)などのプライバシー関連タスクにおいて、大規模言語モデルの性能を評価する。
本稿では, BERT, GPT-3.5, GPT-4, カスタムモデルなど, プライバシコンプライアンスチェックや技術プライバシレビューの実行能力について検討する。
LLMは、プライバシーレビューの自動化と規制上の相違点の特定を約束する一方で、法律標準の進化に完全に準拠する能力において、大きなギャップが持続している。
論文 参考訳(メタデータ) (2024-09-04T01:51:37Z) - Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。