論文の概要: PRvL: Quantifying the Capabilities and Risks of Large Language Models for PII Redaction
- arxiv url: http://arxiv.org/abs/2508.05545v1
- Date: Thu, 07 Aug 2025 16:22:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.955262
- Title: PRvL: Quantifying the Capabilities and Risks of Large Language Models for PII Redaction
- Title(参考訳): PRvL:PIIリアクションのための大規模言語モデルの能力とリスクの定量化
- Authors: Leon Garza, Anantaa Kotal, Aritran Piplai, Lavanya Elluri, Prajit Das, Aman Chadha,
- Abstract要約: 非構造化テキストからのPII(Personally Identible Information)のリアクションは、規制されたドメインにおけるデータのプライバシを確保するために重要である。
大規模言語モデル(LLM)の最近の進歩は、有望な代替手段を提供する。
プライバシ保護型PIIリアクションシステムとしてLLMを包括的に分析する。
我々はPRvLをリリースした。PRvLは細調整されたモデルと汎用PIIリアクションのための評価ツールである。
- 参考スコア(独自算出の注目度): 0.7421845364041001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Redacting Personally Identifiable Information (PII) from unstructured text is critical for ensuring data privacy in regulated domains. While earlier approaches have relied on rule-based systems and domain-specific Named Entity Recognition (NER) models, these methods fail to generalize across formats and contexts. Recent advances in Large Language Models (LLMs) offer a promising alternative, yet the effect of architectural and training choices on redaction performance remains underexplored. LLMs have demonstrated strong performance in tasks that require contextual language understanding, including the redaction of PII in free-form text. Prior work suggests that with appropriate adaptation, LLMs can become effective contextual privacy learners. However, the consequences of architectural and training choices for PII Redaction remain underexplored. In this work, we present a comprehensive analysis of LLMs as privacy-preserving PII Redaction systems. We evaluate a range of LLM architectures and training strategies for their effectiveness in PII Redaction. Our analysis measures redaction performance, semantic preservation, and PII leakage, and compares these outcomes against latency and computational cost. The results provide practical guidance for configuring LLM-based redactors that are accurate, efficient, and privacy-aware. To support reproducibility and real-world deployment, we release PRvL, an open-source suite of fine-tuned models, and evaluation tools for general-purpose PII Redaction. PRvL is built entirely on open-source LLMs and supports multiple inference settings for flexibility and compliance. It is designed to be easily customized for different domains and fully operable within secure, self-managed environments. This enables data owners to perform redactions without relying on third-party services or exposing sensitive content beyond their own infrastructure.
- Abstract(参考訳): 構造化されていないテキストからPII(Personally Identible Information)を再実行することは、規制されたドメインにおけるデータのプライバシを確保するために重要である。
以前のアプローチはルールベースのシステムやドメイン固有の名前付きエンティティ認識(NER)モデルに依存していたが、これらの手法は形式やコンテキストをまたいだ一般化には失敗している。
近年のLarge Language Models (LLM) の進歩は有望な代替手段を提供するが、アーキテクチャとトレーニングの選択がリアクション性能に与える影響は未定である。
LLMは、自由形式のテキストにおけるPIIの再作用を含む文脈言語理解を必要とするタスクにおいて、強い性能を示してきた。
先行研究は、LLMが適切な適応によって、効果的なコンテキストプライバシ学習者となることを示唆している。
しかしながら、PIIリアクションのアーキテクチャおよびトレーニング選択の結果は未定のままである。
本研究では,LLMをプライバシ保護型PIIリアクションシステムとして包括的に分析する。
PIIリアクションにおけるLLMアーキテクチャとトレーニング戦略の評価を行った。
本分析では, 性能, セマンティック保存, PII リークを計測し, これらの結果と遅延, 計算コストを比較した。
その結果,LCMをベースとした,正確で効率的,かつプライバシに配慮したリラクタの構成に関する実践的ガイダンスが得られた。
再現性と実世界の展開をサポートするため,我々はPRvLをリリースした。
PRvLは完全にオープンソースのLLM上に構築されており、柔軟性とコンプライアンスのための複数の推論設定をサポートしている。
異なるドメインで簡単にカスタマイズでき、セキュアでセルフマネージドな環境で完全に操作できるように設計されている。
これにより、データオーナは、サードパーティのサービスに依存することなく、あるいは自身のインフラストラクチャを越えて機密性の高いコンテンツを公開することなく、リアクションを実行することができる。
関連論文リスト
- Large Language Models for History, Philosophy, and Sociology of Science: Interpretive Uses, Methodological Challenges, and Critical Perspectives [0.0]
本稿では,科学史・哲学・社会学研究ツールとしての大規模言語モデル(LLM)の利用について検討する。
LLMは、構造化されていないテキストを処理し、文脈から意味を推測するのに非常に効果的である。
このことは、解釈的方法論を強調し、文脈に依存し、曖昧で、歴史的に位置する意味を理解するHPSSの機会と課題を提起する。
論文 参考訳(メタデータ) (2025-06-13T21:44:13Z) - Federated Fine-Tuning of LLMs: Framework Comparison and Research Directions [59.5243730853157]
Federated Learning(FL)は、分散プライベートデータセットを使用して、トレーニング済みの大規模言語モデル(LLM)を微調整するための、プライバシ保護ソリューションを提供する。
本稿では、知識蒸留(KD)とスプリットラーニング(SL)を統合し、これらの問題を緩和する3つの先進的連合LLM(FedLLM)フレームワークの比較分析を行う。
論文 参考訳(メタデータ) (2025-01-08T11:37:06Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - Privacy Policy Analysis through Prompt Engineering for LLMs [3.059256166047627]
PAPEL (Privacy Policy Analysis through Prompt Engineering for LLMs) は、Large Language Models (LLMs) の力を利用してプライバシーポリシーの分析を自動化するフレームワークである。
これらのポリシーからの情報の抽出、アノテーション、要約を合理化し、追加のモデルトレーニングを必要とせず、アクセシビリティと理解性を高めることを目的としている。
PAPELの有効性を, (i) アノテーションと (ii) 矛盾解析の2つの応用で実証した。
論文 参考訳(メタデータ) (2024-09-23T10:23:31Z) - A Reality check of the benefits of LLM in business [1.9181612035055007]
大規模言語モデル(LLM)は、言語理解および生成タスクにおいて顕著なパフォーマンスを達成した。
ビジネスプロセスにおけるLCMの有用性と準備性について概説する。
論文 参考訳(メタデータ) (2024-06-09T02:36:00Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。