論文の概要: Assessing and Mitigating Data Memorization Risks in Fine-Tuned Large Language Models
- arxiv url: http://arxiv.org/abs/2508.14062v1
- Date: Sun, 10 Aug 2025 10:26:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-24 10:27:26.53682
- Title: Assessing and Mitigating Data Memorization Risks in Fine-Tuned Large Language Models
- Title(参考訳): 微調整大言語モデルにおけるデータ記憶リスクの評価と緩和
- Authors: Badrinath Ramakrishnan, Akshaya Balaji,
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる顕著な機能を示している。
トレーニングデータを記憶する傾向は、特に微調整プロセスにおいて、重大なプライバシーリスクを引き起こす。
本稿では、微調整LDMにおけるデータの包括的分析を行い、新しい多層プライバシー保護フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities across diverse natural language processing tasks, but their tendency to memorize training data poses significant privacy risks, particularly during fine-tuning processes. This paper presents a comprehensive empirical analysis of data memorization in fine-tuned LLMs and introduces a novel multi-layered privacy protection framework. Through controlled experiments on modern LLM architectures including GPT-2, Phi-3, and Gemma-2, we demonstrate that fine-tuning with repeated sensitive data increases privacy leakage rates from baseline levels of 0-5% to 60-75%, representing a 64.2% average increase across tested models. We propose and rigorously evaluate four complementary privacy protection methods: semantic data deduplication, differential privacy during generation, entropy-based filtering, and pattern-based content filtering. Our experimental results show that these techniques can reduce data leakage to 0% while maintaining 94.7% of original model utility.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる顕著な能力を示しているが、トレーニングデータを記憶する傾向は、特に微調整プロセスにおいて、重大なプライバシーリスクを引き起こす。
本稿では、微調整LDMにおけるデータ記憶の包括的実証分析を行い、新しい多層プライバシー保護フレームワークを提案する。
GPT-2、Phi-3、Gemma-2といった近代LLMアーキテクチャの制御実験を通じて、繰り返し機密データによる微調整により、ベースラインレベルの0-5%から60-75%までのプライバシー漏洩率が向上し、テストモデル全体で64.2%の平均的な増加を示すことを示した。
本稿では,意味データの重複,生成時の差分プライバシー,エントロピーに基づくフィルタリング,パターンに基づくコンテンツフィルタリングの4つの補完的プライバシ保護手法を提案する。
実験結果から,これらの手法は元のモデルユーティリティの94.7%を維持しながら,データのリークを0%まで低減できることがわかった。
関連論文リスト
- Private PoEtry: Private In-Context Learning via Product of Experts [58.496468062236225]
In-context Learning (ICL) は、大規模言語モデルが推論時に少数の例だけで新しいタスクに適応できるようにする。
ICLに対する既存の差分プライバシーアプローチは、計算コストが高いか、オーバーサンプリング、合成データ生成、あるいは不要なしきい値設定に依存している。
我々は、Product-of-Expertsモデルのレンズを通してプライベートICLを再構成し、理論的に基盤付けられたフレームワークを与え、アルゴリズムを自明に並列化することができる。
本手法は,従来のDP-ICL法と比較して平均30ポイント以上精度が向上し,高いプライバシー保証を維持した。
論文 参考訳(メタデータ) (2026-02-04T19:56:24Z) - Unintended Memorization of Sensitive Information in Fine-Tuned Language Models [24.228889351240838]
センシティブデータセット上の微調整大言語モデル(LLM)は、意図しない暗記と個人識別情報漏洩の重大なリスクをもたらす(PII)
我々は、意図しないPII記憶の定量化と、言語、PII周波数、タスクタイプ、モデルサイズなどの要因が記憶行動にどのように影響するかを研究するために、制御された抽出プローブを設計した。
論文 参考訳(メタデータ) (2026-01-24T15:08:45Z) - Randomized Masked Finetuning: An Efficient Way to Mitigate Memorization of PIIs in LLMs [2.9506547907696006]
我々は,パフォーマンスへの影響を最小限に抑えつつ,記憶を小さくするプライバシー保護ファインチューニング技術であるRandomized Masked Fine-Tuning (RMFT)を紹介した。
その結果,RMFTの総抽出速度は80.81%低下し,抽出速度は80.17%低下した。
論文 参考訳(メタデータ) (2025-12-02T23:46:42Z) - On the MIA Vulnerability Gap Between Private GANs and Diffusion Models [51.53790101362898]
GAN(Generative Adversarial Networks)と拡散モデルが高品質な画像合成のための主要なアプローチとして登場している。
差分自己生成モデルが直面するプライバシーリスクの統一的および実証的分析について述べる。
論文 参考訳(メタデータ) (2025-09-03T14:18:22Z) - LLM4MEA: Data-free Model Extraction Attacks on Sequential Recommenders via Large Language Models [50.794651919028965]
近年の研究では、モデル抽出攻撃(MEA)に対するシーケンシャルレコメンデータシステムの脆弱性が実証されている。
事前のMEAにおけるブラックボックス攻撃は、データ選択のランダムサンプリングによるレコメンデータシステムの脆弱性を明らかにするのに効果がない。
LLM4MEAは,Large Language Models (LLMs) を人間のようなランク付けとして活用してデータを生成する新しいモデル抽出法である。
論文 参考訳(メタデータ) (2025-07-22T19:20:23Z) - SOFT: Selective Data Obfuscation for Protecting LLM Fine-tuning against Membership Inference Attacks [17.77094760401298]
メンバーシップ推論攻撃(MIA)に対する微調整大言語モデルの脆弱性について検討する。
プライバシー保護とプライバシー保護のバランスをとるために,影響のあるデータ選択を調整可能なパラメータで活用することで,プライバシーの漏洩を緩和する新しい防衛手法であるSOFTを提案する。
論文 参考訳(メタデータ) (2025-06-12T07:23:56Z) - Self-Refining Language Model Anonymizers via Adversarial Distillation [49.17383264812234]
大きな言語モデル(LLM)は、個人情報を推測する能力がプライバシーのリスクを生じさせるセンシティブなドメインで、ますます使われています。
本稿では,SLM(Small Language Model)を訓練し,効率的な匿名化を実現するための新しい蒸留フレームワークであるSEAL(Self-refining Anonymization with Language Model)を紹介する。
論文 参考訳(メタデータ) (2025-06-02T08:21:27Z) - STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions [6.19084217044276]
大規模言語モデル(LLM)における明示的バイアスと暗黙的バイアスの緩和は、自然言語処理の分野において重要な焦点となっている。
我々は,2700のユニークな文を含む450の攻撃的進行を含む,攻撃的進行に関する感性テストデータセットを紹介した。
以上の結果から,最も優れたモデルでさえバイアスを不整合に検出し,成功率は19.3%から69.8%であった。
論文 参考訳(メタデータ) (2024-09-20T18:34:38Z) - Generated Data with Fake Privacy: Hidden Dangers of Fine-tuning Large Language Models on Generated Data [18.984529269623135]
本研究では,生成データによる微調整が真のプライバシ向上に寄与するか,新たなプライバシリスクを導入するかを検討する。
プライバシリスクを測定するために、Pythia Model SuiteとOpen Pre-trained Transformerを使用します。
論文 参考訳(メタデータ) (2024-09-12T10:14:12Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Locally Differentially Private Document Generation Using Zero Shot
Prompting [61.20953109732442]
本稿では,DP-Prompt と呼ばれる局所的に異なるプライベートなメカニズムを提案し,作者の匿名化攻撃に対処する。
DP-PromptをChatGPT(gpt-3.5)のような強力な言語モデルで使用すると、匿名化攻撃の成功率の顕著な低下が観察される。
論文 参考訳(メタデータ) (2023-10-24T18:25:13Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。