論文の概要: Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models
- arxiv url: http://arxiv.org/abs/2407.20271v1
- Date: Thu, 25 Jul 2024 07:09:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 19:27:58.356971
- Title: Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models
- Title(参考訳): Unlearnで学ぶ: 生成言語モデルのための反復的アンラーニングフレームワーク
- Authors: Haoyu Tang, Ye Liu, Xukai Liu, Kai Zhang, Yanghai Zhang, Qi Liu, Enhong Chen,
- Abstract要約: 本稿では,3つの重要なコンポーネントを組み込んだICU(Iterative Contrastive Unlearning)フレームワークを紹介する。
本研究では,学習対象配列を学習しないための知識アンラーニング誘導モジュールと,生成能力の劣化を防止するためのコントラスト学習拡張モジュールを提案する。
実験結果から、ICUが効率よく機密情報を学習しながら、性能維持に有効であることが示された。
- 参考スコア(独自算出の注目度): 49.043599241803825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in machine learning, especially in Natural Language Processing (NLP), have led to the development of sophisticated models trained on vast datasets, but this progress has raised concerns about potential sensitive information leakage. In response, regulatory measures like the EU General Data Protection Regulation (GDPR) have driven the exploration of Machine Unlearning techniques, which aim to enable models to selectively forget certain data entries. While early approaches focused on pre-processing methods, recent research has shifted towards training-based machine unlearning methods. However, many existing methods require access to original training data, posing challenges in scenarios where such data is unavailable. Besides, directly facilitating unlearning may undermine the language model's general expressive ability. To this end, in this paper, we introduce the Iterative Contrastive Unlearning (ICU) framework, which addresses these challenges by incorporating three key components. We propose a Knowledge Unlearning Induction module for unlearning specific target sequences and a Contrastive Learning Enhancement module to prevent degrading in generation capacity. Additionally, an Iterative Unlearning Refinement module is integrated to make the process more adaptive to each target sample respectively. Experimental results demonstrate the efficacy of ICU in maintaining performance while efficiently unlearning sensitive information, offering a promising avenue for privacy-conscious machine learning applications.
- Abstract(参考訳): 機械学習の最近の進歩、特に自然言語処理(NLP)は、膨大なデータセットで訓練された洗練されたモデルの開発につながっているが、この進歩は潜在的な機密情報漏洩への懸念を引き起こしている。
これに対して、EU一般データ保護規則(GDPR)のような規制措置は、特定のデータエントリを選択的に忘れることを目的とした、機械学習技術の調査を推進している。
初期のアプローチは前処理に重点を置いていたが、最近の研究では、トレーニングベースの機械学習手法に移行している。
しかし、既存の多くのメソッドはオリジナルのトレーニングデータへのアクセスを必要とし、そのようなデータが利用できないシナリオで課題を提起する。
さらに、非学習の直接的促進は、言語モデルの一般的な表現能力を損なう可能性がある。
そこで本論文では,3つの重要なコンポーネントを組み込んだICU(Iterative Contrastive Unlearning)フレームワークを提案する。
本研究では,学習対象配列を学習しないための知識アンラーニング誘導モジュールと,生成能力の劣化を防止するためのコントラスト学習拡張モジュールを提案する。
さらに、反復的アンラーニングリファインメントモジュールが統合され、各対象のサンプルに対して、プロセスをより適応させることができる。
実験結果は、プライバシを意識した機械学習アプリケーションのための有望な道を提供するとともに、効率よくセンシティブな情報を学習しながら、性能を維持するためのICUの有効性を示す。
関連論文リスト
- Zero-shot Class Unlearning via Layer-wise Relevance Analysis and Neuronal Path Perturbation [11.174705227990241]
機械学習は、大規模な再トレーニングを必要とせずに、トレーニングされたモデルから特定のデータの影響を取り除くテクニックである。
本稿では,階層的関連分析と神経経路摂動を用いた機械学習の新しい手法を提案する。
本手法は,高関連ニューロンを同定・摂動することで,機械学習性能とモデルの有用性のバランスをとる。
論文 参考訳(メタデータ) (2024-10-31T07:37:04Z) - CodeUnlearn: Amortized Zero-Shot Machine Unlearning in Language Models Using Discrete Concept [5.345828824625758]
コードブック機能とスパースオートエンコーダ(SAEs)を用いた新しいアンラーニング手法を提案する。
ボトルネックを利用して、アクティベーション空間を分解し、情報の流れを規制することにより、モデルの性能を無関係なデータに保ちながら、ターゲットとなる情報を効率的に解き放つ。
論文 参考訳(メタデータ) (2024-10-08T10:26:22Z) - Federated Learning driven Large Language Models for Swarm Intelligence: A Survey [2.769238399659845]
Federated Learning (FL)は、大規模言語モデル(LLM)をトレーニングするための魅力的なフレームワークを提供する
私たちは機械学習に重点を置いています。これは、忘れられる権利のようなプライバシー規則に従う上で重要な側面です。
摂動技術やモデル分解,漸進学習など,効果的なアンラーニングを可能にするさまざまな戦略を探求する。
論文 参考訳(メタデータ) (2024-06-14T08:40:58Z) - Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Efficient Knowledge Deletion from Trained Models through Layer-wise
Partial Machine Unlearning [2.3496568239538083]
本稿では,機械学習アルゴリズムの新たなクラスを紹介する。
第1の方法は、アンネシアック・アンラーニングであり、アンネシアック・アンラーニングとレイヤーワイズ・プルーニングの統合である。
第2の方法は、階層的な部分更新をラベルフリップと最適化に基づくアンラーニングに同化する。
論文 参考訳(メタデータ) (2024-03-12T12:49:47Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。