論文の概要: Leverage Unlearning to Sanitize LLMs
- arxiv url: http://arxiv.org/abs/2510.21322v1
- Date: Fri, 24 Oct 2025 10:28:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.436162
- Title: Leverage Unlearning to Sanitize LLMs
- Title(参考訳): レバレッジ・アンラーニングによるLSMの衛生化
- Authors: Antoine Boutet, Lucas Magnana,
- Abstract要約: 言語モデルを衛生化するための未学習アプローチであるSANIを提案する。
1) モデルの最後の層にある特定のニューロンをリセットして微細な情報の記憶を妨害し、2) 機密情報を記憶するのを避けながらモデルを微調整する。
結果から, 未学習のエポックがわずかに少なければ, モデルは衛生化され, リグルジテーションの数は劇的に減少することがわかった。
- 参考スコア(独自算出の注目度): 0.3867363075280543
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Pre-trained large language models (LLMs) are becoming useful for various tasks. To improve their performance on certain tasks, it is necessary to fine-tune them on specific data corpora (e.g., medical reports, business data). These specialized data corpora may contain sensitive data (e.g., personal or confidential data) that will be memorized by the model and likely to be regurgitated during its subsequent use. This memorization of sensitive information by the model poses a significant privacy or confidentiality issue. To remove this memorization and sanitize the model without requiring costly additional fine-tuning on a secured data corpus, we propose SANI. SANI is an unlearning approach to sanitize language models. It relies on both an erasure and repair phases that 1) reset certain neurons in the last layers of the model to disrupt the memorization of fine-grained information, and then 2) fine-tune the model while avoiding memorizing sensitive information. We comprehensively evaluate SANI to sanitize both a model fine-tuned and specialized with medical data by removing directly and indirectly identifiers from the memorization of the model, and a standard pre-trained model by removing specific terms defined as confidential information from the model. Results show that with only few additional epochs of unlearning, the model is sanitized and the number of regurgitations is drastically reduced. This approach can be particularly useful for hospitals or other industries that have already spent significant resources training models on large datasets and wish to sanitize them before sharing.
- Abstract(参考訳): 事前訓練された大規模言語モデル(LLM)は様々なタスクに役立っている。
特定のタスクにおけるパフォーマンスを改善するためには、特定のデータコーパス(例えば、医療報告、ビジネスデータ)を微調整する必要がある。
これらの特殊なデータコーパスには、モデルによって記憶される機密データ(例えば、個人または機密データ)が含まれており、その後の使用中に再取得される可能性がある。
このモデルによる機密情報の記憶は、重要なプライバシーや機密性の問題を引き起こす。
セキュアなデータコーパスに対して,コストのかかる微調整を必要とせずに,この暗記を除去し,モデルの正当化を図るため,SANIを提案する。
SANIは、言語モデルを衛生化するための未学習のアプローチである。
それは、消去と修復のフェーズの両方に依存します。
1)モデルの最後の層にある特定のニューロンをリセットして、きめ細かい情報の記憶を損なう。
2)機密情報の記憶を避けつつモデルを微調整する。
我々は,SANIを総合的に評価し,モデルの記憶から直接的および間接的に識別子を取り除き,医療データに精通したモデルと,モデルから機密情報として定義された特定の用語を取り除き,標準的な事前訓練モデルの両方を正当に評価する。
結果から, 未学習のエポックがわずかに少なければ, モデルは衛生化され, リグルジテーションの数は劇的に減少することがわかった。
このアプローチは、大規模なデータセット上で重要なリソーストレーニングモデルを使用しており、共有する前にそれらを衛生化したいと願っている病院や他の業界にとって、特に有用である。
関連論文リスト
- Reveal and Release: Iterative LLM Unlearning with Self-generated Data [5.932877449308903]
本稿では,自己生成データで学習するReveal-and-Release'法を提案する。
モデルの重み空間をパラメータ効率のよいモジュールで漸進的に調整する。
論文 参考訳(メタデータ) (2025-09-18T05:07:27Z) - Model Collapse Is Not a Bug but a Feature in Machine Unlearning for LLMs [54.167494079321465]
LLMの現在のアンラーニング方法は、それらを微調整データに組み込むことで、削除しようとしているプライベート情報に基づいて最適化されている。
本研究では,未学習目標を学習対象に含まない新しい非学習手法-部分的モデル崩壊(PMC)を提案する。
論文 参考訳(メタデータ) (2025-07-06T03:08:49Z) - FUNU: Boosting Machine Unlearning Efficiency by Filtering Unnecessary Unlearning [9.472692023087223]
本研究では不必要な未学習につながるデータポイントを同定するFUNUを提案する。
FUNUの理論的解析を行い,その有効性を検証するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2025-01-28T01:19:07Z) - AutoElicit: Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
我々はAutoElicitを導入し、大規模言語モデルから知識を抽出し、予測モデルのための事前構築を行う。
これらの先行情報は情報的であり、自然言語を用いて洗練できることを示す。
AutoElicitは、非形式的な事前よりもエラーを大幅に減らし、ラベルを減らし、コンテクスト内学習を一貫して上回ります。
論文 参考訳(メタデータ) (2024-11-26T10:13:39Z) - REVS: Unlearning Sensitive Information in Language Models via Rank Editing in the Vocabulary Space [40.25037054636284]
言語モデル(LM)は、トレーニングデータに見られる機密情報や個人識別可能な情報(PII)を不注意に記憶・拡散し、プライバシー上の懸念を引き起こすリスクがある。
LMから機密情報を学習する非段階的手法であるREVSを提案する。
論文 参考訳(メタデータ) (2024-06-13T17:02:32Z) - Emergent and Predictable Memorization in Large Language Models [23.567027014457775]
メモリ化、あるいはトレーニングデータから全シーケンスを出力する大規模言語モデルの傾向は、安全に言語モデルをデプロイする上で重要な関心事である。
我々は,大規模モデルのフルトレインタイム前にどのシーケンスを記憶するかを,低速トライアルの実行時の記憶挙動を外挿することによって予測する。
モデルとデータ間のメモリ化スコアの分布に関する新たな発見を提供する。
論文 参考訳(メタデータ) (2023-04-21T17:58:31Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - SSSE: Efficiently Erasing Samples from Trained Machine Learning Models [103.43466657962242]
サンプル消去のための効率的かつ効率的なアルゴリズムSSSEを提案する。
ある場合、SSSEは、許可されたデータだけで新しいモデルをスクラッチからトレーニングする最適な、しかし実用的でない金の標準と同様に、サンプルをほぼ消去することができる。
論文 参考訳(メタデータ) (2021-07-08T14:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。