論文の概要: Adaptive PII Mitigation Framework for Large Language Models
- arxiv url: http://arxiv.org/abs/2501.12465v1
- Date: Tue, 21 Jan 2025 19:22:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:53:41.999857
- Title: Adaptive PII Mitigation Framework for Large Language Models
- Title(参考訳): 大規模言語モデルのための適応型PII緩和フレームワーク
- Authors: Shubhi Asthana, Ruchi Mahindru, Bing Zhang, Jorge Sanz,
- Abstract要約: 本稿では,PII(Personally Identible Information)とSPI(Sensitive Personal Information)のリスク軽減のための適応システムを提案する。
このシステムは、高度なNLP技術、文脈認識分析、およびポリシー駆動マスキングを使用して、規制コンプライアンスを保証する。
ベンチマークではシステムの有効性が強調され、パスポート番号のF1スコアは0.95である。
- 参考スコア(独自算出の注目度): 2.694044579874688
- License:
- Abstract: Artificial Intelligence (AI) faces growing challenges from evolving data protection laws and enforcement practices worldwide. Regulations like GDPR and CCPA impose strict compliance requirements on Machine Learning (ML) models, especially concerning personal data use. These laws grant individuals rights such as data correction and deletion, complicating the training and deployment of Large Language Models (LLMs) that rely on extensive datasets. Public data availability does not guarantee its lawful use for ML, amplifying these challenges. This paper introduces an adaptive system for mitigating risk of Personally Identifiable Information (PII) and Sensitive Personal Information (SPI) in LLMs. It dynamically aligns with diverse regulatory frameworks and integrates seamlessly into Governance, Risk, and Compliance (GRC) systems. The system uses advanced NLP techniques, context-aware analysis, and policy-driven masking to ensure regulatory compliance. Benchmarks highlight the system's effectiveness, with an F1 score of 0.95 for Passport Numbers, outperforming tools like Microsoft Presidio (0.33) and Amazon Comprehend (0.54). In human evaluations, the system achieved an average user trust score of 4.6/5, with participants acknowledging its accuracy and transparency. Observations demonstrate stricter anonymization under GDPR compared to CCPA, which permits pseudonymization and user opt-outs. These results validate the system as a scalable and robust solution for enterprise privacy compliance.
- Abstract(参考訳): 人工知能(AI)は、世界中のデータ保護法と執行慣行の進化による課題に直面している。
GDPRやCCPAといった規制は、特に個人データの使用に関して、機械学習(ML)モデルに厳格なコンプライアンス要件を課している。
これらの法律は、広範囲なデータセットに依存する大規模言語モデル(LLM)の訓練と展開を複雑にし、データの修正や削除のような個人の権利を付与する。
公開データの可用性は、MLの合法的な使用を保証せず、これらの課題を増幅する。
本稿では,LLMにおけるPII(Personally Identible Information)とSPI(Sensitive Personal Information)のリスク軽減のための適応システムを提案する。
さまざまな規制フレームワークと動的に連携し、ガバナンス、リスク、コンプライアンス(GRC)システムにシームレスに統合します。
このシステムは、高度なNLP技術、文脈認識分析、およびポリシー駆動マスキングを使用して、規制コンプライアンスを保証する。
F1スコアはパスポート番号の0.95で、Microsoft Presidio (0.33) や Amazon Comprehend (0.54) などのツールよりも優れている。
人間の評価では、システムは平均的ユーザ信頼スコア4.6/5を達成し、参加者はその正確さと透明性を認めた。
GDPR下での匿名化はCCPAに比べて厳格であり、偽名化やユーザオプトアウトが可能である。
これらの結果は、エンタープライズプライバシコンプライアンスのためのスケーラブルで堅牢なソリューションとしてシステムを検証する。
関連論文リスト
- Trustworthy AI: Securing Sensitive Data in Large Language Models [0.0]
大規模言語モデル(LLM)は、堅牢なテキスト生成と理解を可能にすることで自然言語処理(NLP)を変革した。
本稿では, 機密情報の開示を動的に制御するために, 信頼機構をLCMに組み込むための包括的枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-26T19:02:33Z) - LegiLM: A Fine-Tuned Legal Language Model for Data Compliance [5.256747140296861]
LegiLMは、データや情報コンプライアンスに関するコンサルティングに特化した、新しい法的言語モデルである。
特定のアクションやイベントがデータセキュリティとプライバシ規則に違反しているかどうかを自動的に評価するように調整されている。
LegiLMは、データ規制違反の検出、健全な法的正当性の提供、必要なコンプライアンス修正の推奨に優れています。
論文 参考訳(メタデータ) (2024-09-09T02:06:52Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - FedCAda: Adaptive Client-Side Optimization for Accelerated and Stable Federated Learning [57.38427653043984]
フェデレートラーニング(FL)は、分散クライアント間の機械学習モデルの協調トレーニングにおいて、顕著なアプローチとして登場した。
我々は,この課題に対処するために設計された,革新的なクライアント適応アルゴリズムであるFedCAdaを紹介する。
我々はFedCAdaが適応性、収束性、安定性、全体的な性能の点で最先端の手法より優れていることを実証する。
論文 参考訳(メタデータ) (2024-05-20T06:12:33Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Distributed Machine Learning and the Semblance of Trust [66.1227776348216]
フェデレートラーニング(FL)により、データ所有者はデータを共有することなく、データガバナンスを維持し、モデルトレーニングをローカルで行うことができる。
FLと関連する技術は、しばしばプライバシー保護と表現される。
この用語が適切でない理由を説明し、プライバシの形式的定義を念頭に設計されていないプロトコルに対する過度な信頼に関連するリスクを概説する。
論文 参考訳(メタデータ) (2021-12-21T08:44:05Z) - Privacy Preservation in Federated Learning: An insightful survey from
the GDPR Perspective [10.901568085406753]
この記事は、フェデレーテッドラーニングに使用できる最先端のプライバシー技術に関する調査に特化している。
近年の研究では、FLにおけるデータの保持と計算は、プライバシ保証者にとって不十分であることが示されている。
これは、FLシステム内のパーティ間で交換されるMLモデルパラメータが、いくつかのプライバシ攻撃で悪用されるためである。
論文 参考訳(メタデータ) (2020-11-10T21:41:25Z) - Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。
我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文 参考訳(メタデータ) (2020-11-02T20:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。