論文の概要: Towards Robust and Cost-Efficient Knowledge Unlearning for Large Language Models
- arxiv url: http://arxiv.org/abs/2408.06621v2
- Date: Sun, 13 Oct 2024 19:03:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:04:26.759253
- Title: Towards Robust and Cost-Efficient Knowledge Unlearning for Large Language Models
- Title(参考訳): 大規模言語モデルのためのロバストで費用効率の良い知識学習を目指して
- Authors: Sungmin Cha, Sungjun Cho, Dasol Hwang, Moontae Lee,
- Abstract要約: 大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。
これはプライバシーと著作権侵害のリスクを生じさせ、効率的な機械学習手法の必要性を強調している。
LLMのための堅牢で効率的なアンラーニングのための2つの新しい手法を提案する。
- 参考スコア(独自算出の注目度): 25.91643745340183
- License:
- Abstract: Large Language Models (LLMs) have demonstrated strong reasoning and memorization capabilities via pretraining on massive textual corpora. However, this poses risk of privacy and copyright violations, highlighting the need for efficient machine unlearning methods that remove sensitive data without retraining from scratch. While Gradient Ascent (GA) is commonly used to unlearn by reducing the likelihood of generating unwanted content, it leads to unstable optimization and catastrophic forgetting of retrained knowledge. We also find that combining GA with low-rank adaptation results in poor trade-offs between computational cost and generative performance. To address these challenges, we propose two novel techniques for robust and efficient unlearning for LLMs. First, we introduce Inverted Hinge loss, which suppresses unwanted tokens while maintaining fluency by boosting the probability of the next most likely token. Second, we develop a data-adaptive initialization for LoRA adapters via low-rank approximation weighted with relative Fisher information, thereby focusing updates on parameters critical for removing targeted knowledge. Experiments on the Training Data Extraction Challenge dataset using GPT-Neo models as well as on the TOFU benchmark with Phi-1.5B and Llama2-7B models demonstrate that our approach effectively removes sensitive information while maintaining reasoning and generative capabilities with minimal impact.
- Abstract(参考訳): 大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。
しかし、これはプライバシと著作権侵害のリスクを生じさせ、スクラッチから再トレーニングすることなく機密データを除去する効率的な機械学習手法の必要性を強調している。
グラディエント・アセント(GA)は、望ましくないコンテンツを生成する可能性を減らすことで、一般に未学習に使用されるが、不安定な最適化と、再学習された知識の破滅的な忘れに繋がる。
また、GAと低ランク適応を組み合わせることで、計算コストと生成性能のトレードオフが低くなることも見出した。
これらの課題に対処するために、LLMの堅牢で効率的なアンラーニングのための2つの新しい手法を提案する。
まず、次の最も可能性の高いトークンの確率を高めることにより、流速を維持しながら不要なトークンを抑える逆ヒンジ損失(Inverted Hinge loss)を導入する。
第2に、相対的なフィッシャー情報に重み付けされた低ランク近似を用いてLoRAアダプタのデータ適応初期化を行い、ターゲットとなる知識の除去に不可欠なパラメータの更新に集中する。
GPT-Neoモデルを用いたトレーニングデータ抽出チャレンジデータセットおよびPhi-1.5BおよびLlama2-7Bモデルを用いたTOFUベンチマーク実験により、本手法は、最小限の影響で推論と生成能力を維持しつつ、センシティブな情報を効果的に除去することを示した。
関連論文リスト
- Silver Linings in the Shadows: Harnessing Membership Inference for Machine Unlearning [7.557226714828334]
ニューラルネットワークから特定のデータサンプルの影響を除去する新しい学習機構を提案する。
この目的を達成するために、我々は、ターゲットモデルの重みやアクティベーション値からプライバシーに敏感な情報を排除するための、新しい損失関数を構築した。
本研究の結果は,未学習の有効性とレイテンシ,および主課題の忠実度の観点から,我々のアプローチの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-07-01T00:20:26Z) - Large Language Model Unlearning via Embedding-Corrupted Prompts [10.889859281637406]
本稿では,大規模言語モデルのための軽量なアンラーニングフレームワークであるEmbeding-Corrupted (ECO) Promptsを紹介する。
推論中に未学習の状態を識別し、忘れるプロンプトを保護するためにプロンプト分類器を用いて強制する。
その結果, 学習対象を満足させるだけでなく, 忘れることを意図したデータに基づいて訓練されたことのないモデルから得られる出力を, より正確に近似できることがわかった。
論文 参考訳(メタデータ) (2024-06-12T06:56:20Z) - Machine Unlearning in Large Language Models [0.7864304771129751]
本稿では,大規模言語モデル(LLM)を倫理,プライバシ,安全基準と整合させる手法を提案する。
本研究の目的は,LLMにおける学習情報を選択的に消去・修正することであり,有害な応答や著作権のあるコンテンツを対象としている。
論文 参考訳(メタデータ) (2024-05-24T02:12:51Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究
このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文 参考訳(メタデータ) (2024-02-13T20:51:58Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - Fast Machine Unlearning Without Retraining Through Selective Synaptic
Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。
高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T11:30:45Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。