論文の概要: Randomized Masked Finetuning: An Efficient Way to Mitigate Memorization of PIIs in LLMs
- arxiv url: http://arxiv.org/abs/2512.03310v1
- Date: Tue, 02 Dec 2025 23:46:42 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:13:01.034899
- Title: Randomized Masked Finetuning: An Efficient Way to Mitigate Memorization of PIIs in LLMs
- Title(参考訳): ランダム化マスク付ファインタニング : LLMにおけるPIIの記憶の効率化
- Authors: Kunj Joshi, David A. Smith,
- Abstract要約: 我々は,パフォーマンスへの影響を最小限に抑えつつ,記憶を小さくするプライバシー保護ファインチューニング技術であるRandomized Masked Fine-Tuning (RMFT)を紹介した。
その結果,RMFTの総抽出速度は80.81%低下し,抽出速度は80.17%低下した。
- 参考スコア(独自算出の注目度): 2.9506547907696006
- License:
- Abstract: The current literature on memorization in Natural Language Models, especially Large Language Models (LLMs), poses severe security and privacy risks, as models tend to memorize personally identifying information (PIIs) from training data. We introduce Randomized Masked Fine-Tuning (RMFT), a novel privacy-preserving fine-tuning technique that reduces PII memorization while minimizing performance impact. Using the Enron Email Dataset, we demonstrate that RMFT achieves an 80.81% reduction in Total Extraction Rate and 80.17% reduction in Seen Extraction Rate compared to baseline fine-tuning, outperforming deduplication methods while maintaining only a 5.73% increase in perplexity. We present MaxTER, a Pareto-optimal evaluation framework for assessing privacy-utility tradeoffs, and show the performance of RMFT vs Deduplication by Area Under The Response Curve (AURC) metric.
- Abstract(参考訳): 自然言語モデル、特にLarge Language Models(LLM)における記憶に関する現在の文献は、トレーニングデータから個人識別情報(PII)を記憶する傾向にあるため、厳しいセキュリティとプライバシのリスクをもたらす。
我々は、PII記憶を最小化しつつ、性能への影響を最小限に抑えつつ、新しいプライバシー保護細調整技術であるRandomized Masked Fine-Tuning (RMFT)を紹介した。
Enron Email Dataset を用いて,RMFT は総抽出率 80.81% の削減,抽出率 80.17% の削減を実現した。
プライバシとユーティリティのトレードオフを評価するためのパレート最適評価フレームワークであるMaxTERを紹介し,AURC(Area Under The Response Curve)測定値によるRMFTとDeduplicationの性能を示す。
関連論文リスト
- Assessing and Mitigating Data Memorization Risks in Fine-Tuned Large Language Models [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる顕著な機能を示している。
トレーニングデータを記憶する傾向は、特に微調整プロセスにおいて、重大なプライバシーリスクを引き起こす。
本稿では、微調整LDMにおけるデータの包括的分析を行い、新しい多層プライバシー保護フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-10T10:26:55Z) - Investigating Structural Pruning and Recovery Techniques for Compressing Multimodal Large Language Models: An Empirical Study [64.26593350748401]
MLLM(Multimodal Large Language Models)は印象的な機能を示す。
SLM(Small Language Models)からのMLLMの学習を主とするパラメータ削減技術
本稿では, 構造物の刈り込みと効率的な回復訓練を組み合わせることで, 既存のMLLMを直接圧縮することを提案する。
論文 参考訳(メタデータ) (2025-07-28T11:57:52Z) - SecP-Tuning: Efficient Privacy-Preserving Prompt Tuning for Large Language Models via MPC [45.27141187385785]
大規模言語モデル(LLM)は多くの分野に革命をもたらしたが、医療やファイナンスといったプライバシーに敏感な分野の特殊タスクへの適応には制約が残っている。
セキュアなマルチパーティ計算(MPC)ベースのプライバシ保護機械学習は、モデルパラメータとデータのプライバシに関する理論的保証を提供する。
提案するSecP-Tuningは,LLMの効率的なプライバシ保護プロンプトチューニングを目的とした,最初のMPCベースのフレームワークである。
論文 参考訳(メタデータ) (2025-06-18T09:36:57Z) - Minifinetuning: Low-Data Generation Domain Adaptation through Corrective Self-Distillation [48.52666201053625]
Minifinetuningは、低データ設定におけるオーバーフィッティングによるデジェネレーションの効果を低減する。
MFTは標準的な微調整よりも2~10倍の専門化・一般化比を示す。
論文 参考訳(メタデータ) (2025-05-30T01:54:12Z) - Efficient and Private: Memorisation under differentially private parameter-efficient fine-tuning in language models [2.3281513013731145]
特定のタスクのための微調整された大型言語モデル(LLM)は、不注意に記憶し、センシティブなトレーニングデータを漏洩する可能性があるため、プライバシのリスクをもたらす。
差分プライバシー(DP)は、これらのリスクを軽減するソリューションを提供するが、重大な計算とパフォーマンスのトレードオフをもたらす。
PEFT法は,パラメータを少なくし,プライバシリークを著しく低減しつつ,標準的な微調整に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2024-11-24T13:17:36Z) - Protecting Privacy Through Approximating Optimal Parameters for Sequence Unlearning in Language Models [37.172662930947446]
言語モデル(LM)は、重大なプライバシーリスクを示す抽出攻撃に対して潜在的に脆弱である。
本稿では,事前学習したLMからターゲットトークンシーケンスを効果的に忘れる新しい未学習手法である,最適パラメータによるプライバシ保護(POP)を提案する。
POPは、9つの分類と4つのダイアログベンチマークにまたがって、保留後の顕著なパフォーマンスを示し、最先端を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2024-06-20T08:12:49Z) - MLAE: Masked LoRA Experts for Visual Parameter-Efficient Fine-Tuning [45.93128932828256]
Masked LoRA Experts (MLAE) は、視覚的PEFTにマスキングの概念を適用する革新的なアプローチである。
本手法は,低ランク行列を独立したランク1サブマトリクスに変換するセル分解戦略を組み込んだものである。
MLAEは,VTAB-1kベンチマークでは平均78.8%,FGVCベンチマークでは90.9%の精度で,新しい最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2024-05-29T08:57:23Z) - DPZero: Private Fine-Tuning of Language Models without Backpropagation [49.365749361283704]
DPZeroは、ほぼ次元に依存しない新しいゼロオーダーアルゴリズムである。
DPZeroのメモリ効率は、いくつかの下流タスクでプライベートに微調整されたRoBERTaとOPTで実証される。
論文 参考訳(メタデータ) (2023-10-14T18:42:56Z) - Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in
Self-Refined Open-Source Models [53.859446823312126]
SoTAは7Bから65Bまでのさまざまなサイズのオープンソースモデルを平均して、ベースラインのパフォーマンスから8.2%改善している。
厳密に言えば、Vicuna-7Bのような非常に小さなメモリフットプリントを持つモデルでさえ、全体的な11.74%の改善と、高い創造性、オープンエンドタスクの25.39%の改善を示している。
論文 参考訳(メタデータ) (2023-10-11T15:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。