論文の概要: Anonymous-by-Construction: An LLM-Driven Framework for Privacy-Preserving Text
- arxiv url: http://arxiv.org/abs/2603.17217v1
- Date: Tue, 17 Mar 2026 23:46:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.44646
- Title: Anonymous-by-Construction: An LLM-Driven Framework for Privacy-Preserving Text
- Title(参考訳): Anonymous-by-Construction: プライバシ保護テキストのためのLLM駆動フレームワーク
- Authors: Federico Albanese, Pablo Ronco, Nicolás D'Ippolito,
- Abstract要約: テキストを匿名化するLLM駆動置換パイプラインをオンプレミスで開発する。
プライバシー、セマンティックユーティリティ、およびプライバシー下でのトレーサビリティを測定します。
提案手法は,最先端のプライバシ,トピックドリフトの最小化,実効性の向上,トレーニング可能性の低下を実現する。
- 参考スコア(独自算出の注目度): 0.42821598129654453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Responsible use of AI demands that we protect sensitive information without undermining the usefulness of data, an imperative that has become acute in the age of large language models. We address this challenge with an on-premise, LLM-driven substitution pipeline that anonymizes text by replacing personally identifiable information (PII) with realistic, type-consistent surrogates. Executed entirely within organizational boundaries using local LLMs, the approach prevents data egress while preserving fluency and task-relevant semantics. We conduct a systematic, multi-metric, cross-technique evaluation on the Action-Based Conversation Dataset, benchmarking against industry standards (Microsoft Presidio and Google DLP) and a state-of-the-art approach (ZSTS, in redaction-only and redaction-plus-substitution variants). Our protocol jointly measures privacy, semantic utility, and trainability under privacy via a lifecycle-ready criterion obtained by fine-tuning a compact encoder (BERT+LoRA) on sanitized text. In addition, we assess agentic Q&A performance by inserting an on-premise anonymization layer before the answering LLM and evaluating the quality of its responses. This intermediate, type-preserving substitution stage ensures that no sensitive content is exposed to third-party APIs, enabling responsible deployment of Q\&A agents without compromising confidentiality. Our method attains state-of-the-art privacy, minimal topical drift, strong factual utility, and low trainability loss, outperforming rule-based approaches and named-entity recognition (NER) baselines and ZSTS variants on the combined privacy--utility--trainability frontier. These results show that local LLM substitution yields anonymized corpora that are both responsible to use and operationally valuable: safe for agentic pipelines and suitable for downstream fine-tuning with limited degradation.
- Abstract(参考訳): 責任あるAIの使用は、データの有用性を損なうことなく機密情報を保護することを要求する。
我々は、個人識別可能な情報(PII)を現実的で型一貫性のあるサロゲートに置き換えることで、テキストを匿名化する、オンプレミスのLCM駆動置換パイプラインでこの問題に対処する。
ローカルなLLMを使用して完全に組織の境界内で実行され、このアプローチは、頻度とタスク関連セマンティクスを保ちながらデータの流出を防ぐ。
我々は、業界標準(Microsoft PresidioとGoogle DLP)に対するベンチマーク、および、リアクションのみおよびリアクション+置換のバリエーション(ZSTS)に対する最新のアプローチ(ZSTS)に対して、Action-Based Conversation Datasetの体系的、多メトリックな相互技術評価を行う。
本プロトコルは,サニタイズされたテキスト上に,コンパクトエンコーダ(BERT+LoRA)を微調整することによって得られるライフサイクル対応の基準を用いて,プライバシー,セマンティックユーティリティ,およびプライバシの下でのトレーニング容易性を共同で測定する。
さらに, LLMの前にオンプレミスの匿名化層を挿入し, 応答の質を評価することにより, エージェントQ&A性能を評価する。
この中間的な型保存置換段階は、機密コンテンツがサードパーティのAPIに公開されることを保証し、機密性を損なうことなく、Q\&Aエージェントを責任あるデプロイを可能にする。
提案手法は,プライバシー-ユーティリティ-トレーニング可能性の両面から,最先端のプライバシ,最小限のトピックドリフト,強力な実効性,低トレーニング可能性の損失,ルールベースアプローチ,名目認識(NER)ベースライン,およびZSTSの変種を達成できる。
これらの結果から, LLM の局所置換は, エージェントパイプラインに安全であり, ダウンストリーム微調整に適した, 使用と操作の両方に責任がある匿名コーパスを産出することがわかった。
関連論文リスト
- NeuroFilter: Privacy Guardrails for Conversational LLM Agents [50.75206727081996]
本研究は,エージェント型大規模言語モデル(LLM)のプライバシを強制する際の計算上の課題に対処する。
NeuroFilterは、標準違反をモデルのアクティベーション空間における単純な方向にマッピングすることで、コンテキスト整合性を運用するガードレールフレームワークである。
7Bから70Bパラメータのモデルをカバーする15万以上のインタラクションに対する包括的な評価は、NeuroFilterの強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-01-21T05:16:50Z) - STaR: Sensitive Trajectory Regulation for Unlearning in Large Reasoning Models [12.133996629992318]
本稿では、推論プロセスを通じて堅牢なプライバシ保護を実現するパラメータフリー・推論時アンラーニングフレームワークを提案する。
R-TOFUベンチマークの実験は、STaRが最小限のユーティリティ損失で包括的で安定したアンラーニングを実現することを示した。
論文 参考訳(メタデータ) (2026-01-14T08:35:23Z) - When Privacy Meets Recovery: The Overlooked Half of Surrogate-Driven Privacy Preservation for MLLM Editing [61.80513991207956]
この研究は、さまざまなMLLMシナリオでサロゲート駆動の保護されたデータを復元する方法の課題に焦点を当てている。
私たちはまず、SPPE(Surrogate Privacy Protected Editable)データセットの提供によって、この研究ギャップを埋めます。
MLLM生成編集の忠実さを保ちながら、プライベートコンテンツを確実に再構築する統一的な手法を提案する。
論文 参考訳(メタデータ) (2025-12-08T04:59:03Z) - Semantically-Aware LLM Agent to Enhance Privacy in Conversational AI Services [0.0]
遠隔Large Language Models (LLM) を用いた場合, センシティブなPIIデータを保護するためのセマンティック・アウェア・プライバシ・エージェントを提案する。
応答品質を劣化させるような以前の作業とは異なり、我々のアプローチはユーザプロンプトのセンシティブなPIIエンティティを意味的に一貫した名前で動的に置き換える。
この結果から,LOPSIDEDは基本手法と比較して意味的ユーティリティエラーを5倍に削減できることがわかった。
論文 参考訳(メタデータ) (2025-10-30T21:34:23Z) - PrivacyPAD: A Reinforcement Learning Framework for Dynamic Privacy-Aware Delegation [33.37227619820212]
この問題を解決するために、プライバシPADと呼ばれる新しい強化学習フレームワークを導入する。
我々のフレームワークは、エージェントにテキストチャンクを動的にルーティングするように訓練し、プライバシリークとタスクパフォーマンスのトレードオフを最適にバランスさせるポリシーを学ぶ。
当社のフレームワークは,プライバシ・ユーティリティ・フロンティアにおける新たな最先端を実現する。
論文 参考訳(メタデータ) (2025-10-16T19:38:36Z) - SynBench: A Benchmark for Differentially Private Text Generation [35.908455649647784]
医療や金融といった高度な分野におけるデータ駆動型意思決定のサポートは、データ共有にとって大きな障壁に直面している。
大規模言語モデルのような最近の生成AIモデルは、オープンドメインタスクにおいて印象的なパフォーマンスを示している。
しかし、彼らのセンシティブな環境への導入は、予測不可能な振る舞いと、プライバシー保護の不十分なデータセットによって制限されている。
論文 参考訳(メタデータ) (2025-09-18T03:57:50Z) - The Double-edged Sword of LLM-based Data Reconstruction: Understanding and Mitigating Contextual Vulnerability in Word-level Differential Privacy Text Sanitization [53.51921540246166]
我々は,言語大モデル (LLM) がDP対応テキストの文脈的脆弱性を活用可能であることを示す。
LLM再建の二重刃剣効果がプライバシーと実用性に与える影響を実験的に明らかにした。
本稿では,データ再構成を後処理のステップとして使用するための推奨事項を提案する。
論文 参考訳(メタデータ) (2025-08-26T12:22:45Z) - AgentStealth: Reinforcing Large Language Model for Anonymizing User-generated Text [8.758843436588297]
AgentStealthは、テキスト匿名化のための自己強化言語モデルである。
本手法は, 匿名化の有効性と実用性の両方において, ベースラインよりも優れていることを示す。
当社の軽量設計は、エッジデバイスへの直接的なデプロイをサポートし、クラウド依存や通信ベースのプライバシリスクを回避する。
論文 参考訳(メタデータ) (2025-06-26T02:48:16Z) - Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation [70.62656296780074]
本稿では,新しいデータ生成法であるAIDSAFE(Agenic Iterative Deliberation for Safety Reasoning)を提案する。
AIDSAFEにおけるデータリファインダーの段階は、反復的、冗長的、詐欺的思考を排除し、高品質なアウトプットを保証する。
本評価は, AIDSAFEによるCoTsが, より優れた政策順守と推論品質を実現することを示すものである。
論文 参考訳(メタデータ) (2025-05-27T21:34:40Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。