論文の概要: Unintended Memorization of Sensitive Information in Fine-Tuned Language Models
- arxiv url: http://arxiv.org/abs/2601.17480v1
- Date: Sat, 24 Jan 2026 15:08:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.807518
- Title: Unintended Memorization of Sensitive Information in Fine-Tuned Language Models
- Title(参考訳): 微調整言語モデルにおける知覚情報の意図しない記憶
- Authors: Marton Szep, Jorge Marin Ruiz, Georgios Kaissis, Paulina Seidl, Rüdiger von Eisenhart-Rothe, Florian Hinterwimmer, Daniel Rueckert,
- Abstract要約: センシティブデータセット上の微調整大言語モデル(LLM)は、意図しない暗記と個人識別情報漏洩の重大なリスクをもたらす(PII)
我々は、意図しないPII記憶の定量化と、言語、PII周波数、タスクタイプ、モデルサイズなどの要因が記憶行動にどのように影響するかを研究するために、制御された抽出プローブを設計した。
- 参考スコア(独自算出の注目度): 24.228889351240838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning Large Language Models (LLMs) on sensitive datasets carries a substantial risk of unintended memorization and leakage of Personally Identifiable Information (PII), which can violate privacy regulations and compromise individual safety. In this work, we systematically investigate a critical and underexplored vulnerability: the exposure of PII that appears only in model inputs, not in training targets. Using both synthetic and real-world datasets, we design controlled extraction probes to quantify unintended PII memorization and study how factors such as language, PII frequency, task type, and model size influence memorization behavior. We further benchmark four privacy-preserving approaches including differential privacy, machine unlearning, regularization, and preference alignment, evaluating their trade-offs between privacy and task performance. Our results show that post-training methods generally provide more consistent privacy-utility trade-offs, while differential privacy achieves strong reduction in leakage in specific settings, although it can introduce training instability. These findings highlight the persistent challenge of memorization in fine-tuned LLMs and emphasize the need for robust, scalable privacy-preserving techniques.
- Abstract(参考訳): センシティブデータセット上の微調整大型言語モデル(LLM)は、プライバシ規則に違反し、個人の安全を損なう可能性のある、意図しない記憶と個人識別情報(PII)の漏洩の重大なリスクを負う。
本研究では,訓練対象ではなく,モデル入力にのみ現れるPIIの暴露という,重要かつ未発見の脆弱性を系統的に調査する。
合成と実世界の両方のデータセットを用いて、意図しないPII記憶の定量化のために制御された抽出プローブを設計し、言語、PII周波数、タスクタイプ、モデルサイズなどの要因が記憶行動にどのように影響するかを研究する。
さらに、差分プライバシー、機械学習、正規化、優先調整を含む4つのプライバシ保護アプローチをベンチマークし、プライバシとタスクパフォーマンスのトレードオフを評価する。
以上の結果から,ポストトレーニング手法は一般により一貫性のあるプライバシ・ユーティリティのトレードオフを提供するが,差分プライバシはトレーニング不安定性を導入しながら,特定の設定におけるリークの強い低減を実現することが示唆された。
これらの知見は、微調整LDMにおける記憶の永続的課題を強調し、堅牢でスケーラブルなプライバシ保存技術の必要性を強調している。
関連論文リスト
- Towards Benchmarking Privacy Vulnerabilities in Selective Forgetting with Large Language Models [28.389198065125314]
選択的な忘れ(マシンアンラーニングとも呼ばれる)は、プライバシとデータ削除タスクの約束を示している。
その約束にもかかわらず、選択的な忘れ物はプライバシーの懸念を生じさせる。
プライバシの脆弱性を選択的に評価するための、最初の包括的なベンチマークを示す。
論文 参考訳(メタデータ) (2025-12-19T20:04:06Z) - Forget What's Sensitive, Remember What Matters: Token-Level Differential Privacy in Memory Sculpting for Continual Learning [26.034865955638864]
プライバシーを強化した継続的学習フレームワークを提案する。
当社のアプローチではまず,トークンレベルの動的微分プライバシ戦略を導入しています。
次に、プライバシ誘導型メモリ彫刻モジュールを統合する。
論文 参考訳(メタデータ) (2025-09-16T11:01:59Z) - Privacy in Fine-tuning Large Language Models: Attacks, Defenses, and Future Directions [11.338466798715906]
細調整された大規模言語モデル(LLM)は、様々な領域で最先端のパフォーマンスを達成することができる。
本稿では、微調整LDMに関連するプライバシー問題に関する包括的調査を行う。
メンバーシップ推論、データ抽出、バックドア攻撃など、さまざまなプライバシ攻撃に対する脆弱性を強調します。
論文 参考訳(メタデータ) (2024-12-21T06:41:29Z) - Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。