論文の概要: PrivacyPAD: A Reinforcement Learning Framework for Dynamic Privacy-Aware Delegation
- arxiv url: http://arxiv.org/abs/2510.16054v1
- Date: Thu, 16 Oct 2025 19:38:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.812127
- Title: PrivacyPAD: A Reinforcement Learning Framework for Dynamic Privacy-Aware Delegation
- Title(参考訳): PrivacyPAD - 動的プライバシ対応デリゲーションのための強化学習フレームワーク
- Authors: Zheng Hui, Yijiang River Dong, Sanhanat Sivapiromrat, Ehsan Shareghi, Nigel Collier,
- Abstract要約: この問題を解決するために、プライバシPADと呼ばれる新しい強化学習フレームワークを導入する。
我々のフレームワークは、エージェントにテキストチャンクを動的にルーティングするように訓練し、プライバシリークとタスクパフォーマンスのトレードオフを最適にバランスさせるポリシーを学ぶ。
当社のフレームワークは,プライバシ・ユーティリティ・フロンティアにおける新たな最先端を実現する。
- 参考スコア(独自算出の注目度): 33.37227619820212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When users submit queries to Large Language Models (LLMs), their prompts can often contain sensitive data, forcing a difficult choice: Send the query to a powerful proprietary LLM providers to achieving state-of-the-art performance and risk data exposure, or relying on smaller, local models guarantees data privacy but often results in a degradation of task performance. Prior approaches have relied on static pipelines that use LLM rewriting, which shatters linguistic coherence and indiscriminately removes privacy-sensitive information, including task-critical content. We reformulate this challenge (Privacy-Conscious Delegation) as a sequential decision-making problem and introduce a novel reinforcement learning (RL) framework called PrivacyPAD to solve it. Our framework trains an agent to dynamically route text chunks, learning a policy that optimally balances the trade-off between privacy leakage and task performance. It implicitly distinguishes between replaceable Personally Identifiable Information (PII) (which it shields locally) and task-critical PII (which it strategically sends to the remote model for maximal utility). To validate our approach in complex scenarios, we also introduce a new medical dataset with high PII density. Our framework achieves a new state-of-the-art on the privacy-utility frontier, demonstrating the necessity of learned, adaptive policies for deploying LLMs in sensitive environments.
- Abstract(参考訳): ユーザがLLM(Large Language Models)にクエリを送信した場合、そのプロンプトは機密データを含むことが多く、難しい選択を迫られる。 強力なプロプライエタリなLLMプロバイダにクエリを送信して、最先端のパフォーマンスとリスクデータ露出を達成するか、あるいはより小さなローカルモデルに頼れば、データのプライバシが保証されるが、多くの場合、タスクパフォーマンスが低下する。
従来のアプローチでは、LLM書き換えを使用する静的パイプラインに依存しており、言語的一貫性を損なうとともに、タスククリティカルなコンテンツを含むプライバシーに敏感な情報を無差別に削除している。
本稿では,この課題を逐次意思決定問題として再考し,プライバシPADと呼ばれる新たな強化学習(RL)フレームワークを導入する。
我々のフレームワークは、エージェントにテキストチャンクを動的にルーティングするように訓練し、プライバシリークとタスクパフォーマンスのトレードオフを最適にバランスさせるポリシーを学ぶ。
これは、置き換え可能なPII(Personally Identible Information)とタスククリティカルPII(最大ユーティリティのためにリモートモデルに戦略的に送信する)を暗黙的に区別する。
複雑なシナリオにおけるアプローチを検証するため,PII密度の高い新しい医療データセットも導入した。
当社のフレームワークは,LLMをセンシティブな環境にデプロイする上で,学習的かつ適応的なポリシの必要性を示すとともに,プライバシ・ユーティリティ・フロンティアに関する新たな最先端技術を実現している。
関連論文リスト
- RL-Finetuned LLMs for Privacy-Preserving Synthetic Rewriting [17.294176570269]
本稿では,複合報酬関数を用いた大規模言語モデル(LLM)を微調整する強化学習フレームワークを提案する。
プライバシ報酬は、セマンティックキューと、潜伏表現上の最小スパンニングツリー(MST)から派生した構造パターンを組み合わせる。
実験の結果,提案手法はセマンティック品質を劣化させることなく,著者の難読化とプライバシーの指標を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-25T04:38:19Z) - Searching for Privacy Risks in LLM Agents via Simulation [61.229785851581504]
本稿では,プライバシクリティカルなエージェントインタラクションのシミュレーションを通じて,攻撃と防御戦略の改善を交互に行う検索ベースのフレームワークを提案する。
攻撃戦略は、直接の要求から、不正行為や同意偽造といった高度な戦術へとエスカレートする。
発見された攻撃と防御は、さまざまなシナリオやバックボーンモデルにまたがって伝達され、プライバシーに配慮したエージェントを構築するための強力な実用性を示している。
論文 参考訳(メタデータ) (2025-08-14T17:49:09Z) - AgentStealth: Reinforcing Large Language Model for Anonymizing User-generated Text [8.758843436588297]
AgentStealthは、テキスト匿名化のための自己強化言語モデルである。
本手法は, 匿名化の有効性と実用性の両方において, ベースラインよりも優れていることを示す。
当社の軽量設計は、エッジデバイスへの直接的なデプロイをサポートし、クラウド依存や通信ベースのプライバシリスクを回避する。
論文 参考訳(メタデータ) (2025-06-26T02:48:16Z) - LLM Access Shield: Domain-Specific LLM Framework for Privacy Policy Compliance [2.2022550150705804]
大規模言語モデル(LLM)は、金融、教育、ガバナンスといった分野でますます適用されてきている。
LLMインタラクションにおけるポリシー遵守とリスク軽減のためのセキュリティフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-22T07:30:37Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - PDSS: A Privacy-Preserving Framework for Step-by-Step Distillation of Large Language Models [29.58928014528991]
PDSSはサーバクライアントアーキテクチャで動作し、クライアントは合理生成のためにサーバのLCMにプロンプトを送信する。
生成された合理性はクライアントによってデコードされ、タスク固有の小言語モデルのトレーニングを強化するために使用される。
各種テキスト生成タスクにおけるPDSSの有効性を示す実験により,タスク固有のSLMを訓練し,性能を向上させることができる。
論文 参考訳(メタデータ) (2024-06-18T08:48:14Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。