論文の概要: Operationalizing Data Minimization for Privacy-Preserving LLM Prompting
- arxiv url: http://arxiv.org/abs/2510.03662v1
- Date: Sat, 04 Oct 2025 04:20:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.181113
- Title: Operationalizing Data Minimization for Privacy-Preserving LLM Prompting
- Title(参考訳): プライバシ保護LDMプロンプトのためのデータ最小化操作
- Authors: Jijie Zhou, Niloofar Mireshghallah, Tianshi Li,
- Abstract要約: 消費者アプリケーションにおける大規模言語モデル(LLM)は、個人情報の頻繁な交換につながっている。
データ最小化を正式に定義し,運用するフレームワークを提案する。
オープンエンドの会話と知識集約的なタスクにまたがる4つのデータセット上で,このフレームワークを評価する。
- 参考スコア(独自算出の注目度): 10.031739933859622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid deployment of large language models (LLMs) in consumer applications has led to frequent exchanges of personal information. To obtain useful responses, users often share more than necessary, increasing privacy risks via memorization, context-based personalization, or security breaches. We present a framework to formally define and operationalize data minimization: for a given user prompt and response model, quantifying the least privacy-revealing disclosure that maintains utility, and we propose a priority-queue tree search to locate this optimal point within a privacy-ordered transformation space. We evaluated the framework on four datasets spanning open-ended conversations (ShareGPT, WildChat) and knowledge-intensive tasks with single-ground-truth answers (CaseHold, MedQA), quantifying achievable data minimization with nine LLMs as the response model. Our results demonstrate that larger frontier LLMs can tolerate stronger data minimization while maintaining task quality than smaller open-source models (85.7% redaction for GPT-5 vs. 19.3% for Qwen2.5-0.5B). By comparing with our search-derived benchmarks, we find that LLMs struggle to predict optimal data minimization directly, showing a bias toward abstraction that leads to oversharing. This suggests not just a privacy gap, but a capability gap: models may lack awareness of what information they actually need to solve a task.
- Abstract(参考訳): 消費者アプリケーションにおける大規模言語モデル(LLM)の迅速な展開は、個人情報の頻繁な交換につながっている。
便利なレスポンスを得るためには、ユーザーは必要以上に多くの情報を共有し、記憶、コンテキストベースのパーソナライゼーション、セキュリティ侵害を通じてプライバシーリスクを増大させる。
我々は、データ最小化を正式に定義し、運用するフレームワークを提案する:所定のユーザプロンプトとレスポンスモデルに対して、実用性を維持する最小限のプライバシ保護開示を定量化し、プライバシ順序の変換空間内で、この最適な点を見つけるための優先順位待ち木探索を提案する。
筆者らは,オープンエンド会話(ShareGPT,WildChat)と知識集約タスク(CaseHold,MedQA)にまたがる4つのデータセットについて,そのフレームワークの評価を行った。
以上の結果から,より大きなフロンティアLLMは,小型のオープンソースモデルよりもタスク品質を保ちながら,データ最小化を許容できることがわかった(GPT-5では85.7%,Qwen2.5-0.5Bでは19.3%)。
検索に基づくベンチマークと比較すると、LLMは最適なデータ最小化を直接予測するのに苦労しており、オーバーシェアリングにつながる抽象化へのバイアスが示される。
これは、単にプライバシのギャップだけでなく、能力のギャップを示唆している。
関連論文リスト
- MAGPIE: A dataset for Multi-AGent contextual PrIvacy Evaluation [54.410825977390274]
LLMエージェントのコンテキストプライバシを評価するための既存のベンチマークは、主にシングルターン、低複雑さタスクを評価する。
まず、15ドメインにわたる158のリアルタイムハイテイクシナリオからなるベンチマーク-MAGPIEを示す。
次に、コンテキスト的にプライベートなデータに対する理解と、ユーザのプライバシを侵害することなくコラボレーションする能力に基づいて、最先端のLCMを評価します。
論文 参考訳(メタデータ) (2025-06-25T18:04:25Z) - Personalized Language Models via Privacy-Preserving Evolutionary Model Merging [53.97323896430374]
言語モデルにおけるパーソナライゼーションは、個々のユーザやユーザグループに対する振る舞いをモデル化することを目的としている。
進化的アルゴリズム(PriME)によるプライバシ保護モデルマージを提案する。
PriMEは、プライバシーリスクを低減しつつ、ユーティリティを直接最適化するために、勾配のない方法を採用している。
LaMPベンチマークの実験によると、Primeは一貫してベースラインを上回り、タスクパフォーマンスを最大45%改善している。
論文 参考訳(メタデータ) (2025-03-23T09:46:07Z) - Enhancing LLMs with Smart Preprocessing for EHR Analysis [3.5839042822277585]
大規模言語モデル (LLM) は自然言語処理において顕著な熟練性を示している。
本稿では,厳密なプライバシ要件を持つ環境におけるローカルデプロイメントに最適化されたコンパクトなLLMフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-03T22:06:55Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - No Free Lunch Theorem for Privacy-Preserving LLM Inference [30.554456047738295]
本研究では,プライバシ保護型大規模言語モデル(LLM)を推定するためのフレームワークを開発する。
プライバシー保護とユーティリティの相互作用を調べるための、しっかりとした理論的基盤を築いている。
論文 参考訳(メタデータ) (2024-05-31T08:22:53Z) - The Data Minimization Principle in Machine Learning [61.17813282782266]
データ最小化は、収集、処理、保持されるデータの量を減らすことを目的としている。
様々な国際データ保護規制によって支持されている。
しかし、厳密な定式化が欠如しているため、その実践的な実装は依然として課題である。
論文 参考訳(メタデータ) (2024-05-29T19:40:27Z) - Persona-DB: Efficient Large Language Model Personalization for Response Prediction with Collaborative Data Refinement [79.2400720115588]
本稿では,タスクコンテキスト間の一般化を改善するための階層的な構築プロセスからなる,シンプルで効果的なフレームワークであるPersona-DBを紹介する。
応答予測の評価において,Persona-DB は精度を著しく低減した検索サイズで維持する上で,より優れたコンテキスト効率を示す。
我々の実験は、ユーザーが極めて少ないデータを持つ場合、コールドスタートシナリオで10%以上の顕著な改善が示されていることも示している。
論文 参考訳(メタデータ) (2024-02-16T20:20:43Z) - Task-aware Privacy Preservation for Multi-dimensional Data [4.138783926370621]
ローカルディファレンシャルプライバシ(LDP)は、プライバシ保護のための最先端技術である。
将来的には、よりリッチなユーザデータ属性を匿名化するために、LCPを採用することができる。
課題認識型プライバシ保存問題を考慮し,多次元ユーザデータの究極のタスク性能を大幅に向上させる方法について述べる。
論文 参考訳(メタデータ) (2021-10-05T20:03:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。