論文の概要: OBLIVIATE: Robust and Practical Machine Unlearning for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.04416v1
- Date: Wed, 07 May 2025 13:51:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.096073
- Title: OBLIVIATE: Robust and Practical Machine Unlearning for Large Language Models
- Title(参考訳): OBLIVIATE:大規模言語モデルのためのロバストで実践的な機械学習
- Authors: Xiaoyu Xu, Minxin Du, Qingqing Ye, Haibo Hu,
- Abstract要約: 大規模言語モデル(LLM)は、機密性、著作権、有害なコンテンツを記憶する広範囲なコーパスリスクを訓練した。
モデルユーティリティを保ちながらターゲットデータを削除する頑健なアンラーニングフレームワークOBLIVIATEを提案する。
我々はHarry Potterシリーズ、WMDP、TOFUを含む複数のデータセットで実験を行う。
- 参考スコア(独自算出の注目度): 12.848214683467297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) trained over extensive corpora risk memorizing sensitive, copyrighted, or toxic content. To address this, we propose OBLIVIATE, a robust unlearning framework that removes targeted data while preserving model utility. The framework follows a structured process: extracting target tokens, building retain sets, and fine-tuning with a tailored loss function comprising three components -- masking, distillation, and world fact. Using low-rank adapters (LoRA), it ensures efficiency without compromising unlearning quality. We conduct experiments on multiple datasets, including the Harry Potter series, WMDP, and TOFU, using a comprehensive suite of metrics: forget quality (new document-level memorization score), model utility, and fluency. Results demonstrate its effectiveness in resisting membership inference attacks, minimizing the impact on retained data, and maintaining robustness across diverse scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)は、機密性、著作権、有害なコンテンツを記憶する広範囲なコーパスリスクを訓練した。
そこで本研究では,モデルユーティリティを保ちながら対象データを削除する頑健なアンラーニングフレームワークOBLIVIATEを提案する。
このフレームワークは構造化されたプロセスに従っており、ターゲットトークンを抽出し、保持セットを構築し、マスク、蒸留、世界事実という3つのコンポーネントからなる調整された損失関数で微調整を行う。
ローランクアダプタ(LoRA)を使用することで、未学習の品質を損なうことなく効率を確保できる。
我々はHarry Potterシリーズ、WMDP、TOFUを含む複数のデータセットに対して、品質(新しい文書レベルの記憶スコア)、モデルユーティリティ、流速といった、包括的なメトリクスセットを使用して実験を行う。
その結果、メンバシップ推論攻撃に抵抗し、保持データへの影響を最小限に抑え、さまざまなシナリオにおける堅牢性を維持する効果が示された。
関連論文リスト
- Tokens for Learning, Tokens for Unlearning: Mitigating Membership Inference Attacks in Large Language Models via Dual-Purpose Training [13.680205342714412]
大規模言語モデル(LLM)は、現代の自然言語処理のバックボーンとなっているが、センシティブなトレーニングデータの漏洩に関するプライバシー上の懸念を生じさせている。
本稿では,トークン固有の特徴を利用して,言語モデリングのトレーニングデータを保護する軽量かつ効果的な経験的プライバシ保護を提案する。
論文 参考訳(メタデータ) (2025-02-27T03:37:45Z) - CLIPErase: Efficient Unlearning of Visual-Textual Associations in CLIP [56.199779065855004]
CLIPEraseは視覚的・テキスト的関連を選択的に忘れる新しいアプローチである。
CIFAR-100とFlickr30Kデータセットの実験は、CLIPEraseがマルチモーダルサンプルのゼロショットタスクにおける指定された関連性を効果的に忘れていることを示している。
論文 参考訳(メタデータ) (2024-10-30T17:51:31Z) - Silver Linings in the Shadows: Harnessing Membership Inference for Machine Unlearning [7.557226714828334]
ニューラルネットワークから特定のデータサンプルの影響を除去する新しい学習機構を提案する。
この目的を達成するために、我々は、ターゲットモデルの重みやアクティベーション値からプライバシーに敏感な情報を排除するための、新しい損失関数を構築した。
本研究の結果は,未学習の有効性とレイテンシ,および主課題の忠実度の観点から,我々のアプローチの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-07-01T00:20:26Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - DUEL: Duplicate Elimination on Active Memory for Self-Supervised
Class-Imbalanced Learning [19.717868805172323]
新たなフレームワークであるDuplicate Elimination(DUEL)の自己教師付き事前学習におけるアクティブなデータフィルタリングプロセスを提案する。
このフレームワークは、人間のワーキングメモリにインスパイアされたアクティブメモリを統合し、メモリ内のデータの多様性を測定する特異性情報を導入する。
最も重複したデータを新しいサンプルに置き換えるDUELポリシは、メモリ内の特異性情報を強化し、クラス不均衡を軽減することを目的としている。
論文 参考訳(メタデータ) (2024-02-14T06:09:36Z) - TOFU: A Task of Fictitious Unlearning for LLMs [99.92305790945507]
Webからの大量のコーパスに基づいてトレーニングされた大規模な言語モデルは、法的および倫理的懸念を提起する機密データやプライベートデータを再現することができる。
トレーニングデータに存在する情報を忘れるためにモデルをチューニングするアンラーニングは、トレーニング後のプライベートデータを保護する手段を提供する。
未学習の理解を深めるためのベンチマークであるTOFUを紹介する。
論文 参考訳(メタデータ) (2024-01-11T18:57:12Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。