論文の概要: Assessing and Mitigating Data Memorization Risks in Fine-Tuned Large Language Models
- arxiv url: http://arxiv.org/abs/2508.14062v1
- Date: Sun, 10 Aug 2025 10:26:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-24 10:27:26.53682
- Title: Assessing and Mitigating Data Memorization Risks in Fine-Tuned Large Language Models
- Title(参考訳): 微調整大言語モデルにおけるデータ記憶リスクの評価と緩和
- Authors: Badrinath Ramakrishnan, Akshaya Balaji,
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる顕著な機能を示している。
トレーニングデータを記憶する傾向は、特に微調整プロセスにおいて、重大なプライバシーリスクを引き起こす。
本稿では、微調整LDMにおけるデータの包括的分析を行い、新しい多層プライバシー保護フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities across diverse natural language processing tasks, but their tendency to memorize training data poses significant privacy risks, particularly during fine-tuning processes. This paper presents a comprehensive empirical analysis of data memorization in fine-tuned LLMs and introduces a novel multi-layered privacy protection framework. Through controlled experiments on modern LLM architectures including GPT-2, Phi-3, and Gemma-2, we demonstrate that fine-tuning with repeated sensitive data increases privacy leakage rates from baseline levels of 0-5% to 60-75%, representing a 64.2% average increase across tested models. We propose and rigorously evaluate four complementary privacy protection methods: semantic data deduplication, differential privacy during generation, entropy-based filtering, and pattern-based content filtering. Our experimental results show that these techniques can reduce data leakage to 0% while maintaining 94.7% of original model utility.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる顕著な能力を示しているが、トレーニングデータを記憶する傾向は、特に微調整プロセスにおいて、重大なプライバシーリスクを引き起こす。
本稿では、微調整LDMにおけるデータ記憶の包括的実証分析を行い、新しい多層プライバシー保護フレームワークを提案する。
GPT-2、Phi-3、Gemma-2といった近代LLMアーキテクチャの制御実験を通じて、繰り返し機密データによる微調整により、ベースラインレベルの0-5%から60-75%までのプライバシー漏洩率が向上し、テストモデル全体で64.2%の平均的な増加を示すことを示した。
本稿では,意味データの重複,生成時の差分プライバシー,エントロピーに基づくフィルタリング,パターンに基づくコンテンツフィルタリングの4つの補完的プライバシ保護手法を提案する。
実験結果から,これらの手法は元のモデルユーティリティの94.7%を維持しながら,データのリークを0%まで低減できることがわかった。
関連論文リスト
- SOFT: Selective Data Obfuscation for Protecting LLM Fine-tuning against Membership Inference Attacks [17.77094760401298]
メンバーシップ推論攻撃(MIA)に対する微調整大言語モデルの脆弱性について検討する。
プライバシー保護とプライバシー保護のバランスをとるために,影響のあるデータ選択を調整可能なパラメータで活用することで,プライバシーの漏洩を緩和する新しい防衛手法であるSOFTを提案する。
論文 参考訳(メタデータ) (2025-06-12T07:23:56Z) - Self-Refining Language Model Anonymizers via Adversarial Distillation [49.17383264812234]
大きな言語モデル(LLM)は、個人情報を推測する能力がプライバシーのリスクを生じさせるセンシティブなドメインで、ますます使われています。
本稿では,SLM(Small Language Model)を訓練し,効率的な匿名化を実現するための新しい蒸留フレームワークであるSEAL(Self-refining Anonymization with Language Model)を紹介する。
論文 参考訳(メタデータ) (2025-06-02T08:21:27Z) - Generated Data with Fake Privacy: Hidden Dangers of Fine-tuning Large Language Models on Generated Data [18.984529269623135]
本研究では,生成データによる微調整が真のプライバシ向上に寄与するか,新たなプライバシリスクを導入するかを検討する。
プライバシリスクを測定するために、Pythia Model SuiteとOpen Pre-trained Transformerを使用します。
論文 参考訳(メタデータ) (2024-09-12T10:14:12Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。