論文の概要: Reliable Unlearning Harmful Information in LLMs with Metamorphosis Representation Projection
- arxiv url: http://arxiv.org/abs/2508.15449v1
- Date: Thu, 21 Aug 2025 11:12:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.290627
- Title: Reliable Unlearning Harmful Information in LLMs with Metamorphosis Representation Projection
- Title(参考訳): 形態素表現投影を用いたLLMにおける信頼できない有害情報
- Authors: Chengcan Wu, Zeming Wei, Huanran Chen, Yinpeng Dong, Meng Sun,
- Abstract要約: 本稿では,機械学習における形態素表現投影(MRP)手法を提案する。
特定のネットワーク層の隠れ状態空間にプロジェクティブ変換を実装することにより,有用な知識を保ちながら有害情報を効果的に除去する。
実験により,本手法は効果的な継続的アンラーニングを可能にし,再学習攻撃に対する防御に成功していることが示された。
- 参考スコア(独自算出の注目度): 17.369869625390894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) have demonstrated impressive performance in various domains and tasks, concerns about their safety are becoming increasingly severe. In particular, since models may store unsafe knowledge internally, machine unlearning has emerged as a representative paradigm to ensure model safety. Existing approaches employ various training techniques, such as gradient ascent and negative preference optimization, in attempts to eliminate the influence of undesired data on target models. However, these methods merely suppress the activation of undesired data through parametric training without completely eradicating its informational traces within the model. This fundamental limitation makes it difficult to achieve effective continuous unlearning, rendering these methods vulnerable to relearning attacks. To overcome these challenges, we propose a Metamorphosis Representation Projection (MRP) approach that pioneers the application of irreversible projection properties to machine unlearning. By implementing projective transformations in the hidden state space of specific network layers, our method effectively eliminates harmful information while preserving useful knowledge. Experimental results demonstrate that our approach enables effective continuous unlearning and successfully defends against relearning attacks, achieving state-of-the-art performance in unlearning effectiveness while preserving natural performance. Our code is available in https://github.com/ChengcanWu/MRP.
- Abstract(参考訳): 大きな言語モデル(LLM)は、様々なドメインやタスクで顕著なパフォーマンスを示しているが、それらの安全性に対する懸念はますます深刻になっている。
特に、モデルは内部で安全でない知識を格納する可能性があるため、モデルの安全性を確保するための代表的なパラダイムとして、機械学習が登場した。
既存のアプローチでは、対象モデルに対する望ましくないデータの影響を排除するために、勾配上昇や負の選好最適化といった様々な訓練手法が採用されている。
しかし、これらの手法は、モデル内の情報トレースを完全に消去することなく、パラメトリックトレーニングを通じて、望ましくないデータの活性化を抑制するだけである。
この基本的な制限は、効果的な継続的アンラーニングを実現するのを難しくし、これらのメソッドを再ラーニング攻撃に対して脆弱にする。
これらの課題を克服するために,非可逆射影特性の機械学習への応用を先導した形態素表現投影法(MRP)を提案する。
特定のネットワーク層の隠れ状態空間にプロジェクティブ変換を実装することにより,有用な知識を保ちながら有害情報を効果的に除去する。
実験の結果,本手法は効果的な継続的アンラーニングを可能にし,非ラーニング効果を達成し,自然性能を保ちながら,再ラーニング攻撃を効果的に防ぐことができることが示された。
私たちのコードはhttps://github.com/ChengcanWu/MRPで利用可能です。
関連論文リスト
- Dissecting Fine-Tuning Unlearning in Large Language Models [12.749301272512222]
微調整に基づく未学習法は、大規模言語モデルにおいて有害で機密性の高い、あるいは著作権のある情報を防ぐために一般的である。
しかし、これらの手法の真の有効性は明らかでない。
本研究では,アクティベーションパッチやリカバリ実験を通じて,微調整に基づくアンラーニングの限界を掘り下げる。
論文 参考訳(メタデータ) (2024-10-09T06:58:09Z) - Towards Robust Knowledge Unlearning: An Adversarial Framework for Assessing and Improving Unlearning Robustness in Large Language Models [19.015202590038996]
我々は、未学習モデルを攻撃する動的かつ自動化されたフレームワークであるDynamic Unlearning Attack (DUA)を設計する。
学習過程の堅牢性を効果的に向上する普遍的な枠組みであるLatent Adrial Unlearning (LAU)を提案する。
LAUは学習効率を53.5%以上改善し、近隣の知識の11.6%以下に減らし、モデルの一般的な能力にはほとんど影響を与えないことを示した。
論文 参考訳(メタデータ) (2024-08-20T09:36:04Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.03511469562013]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。
知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。
イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - Silver Linings in the Shadows: Harnessing Membership Inference for Machine Unlearning [7.557226714828334]
ニューラルネットワークから特定のデータサンプルの影響を除去する新しい学習機構を提案する。
この目的を達成するために、我々は、ターゲットモデルの重みやアクティベーション値からプライバシーに敏感な情報を排除するための、新しい損失関数を構築した。
本研究の結果は,未学習の有効性とレイテンシ,および主課題の忠実度の観点から,我々のアプローチの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-07-01T00:20:26Z) - Machine Unlearning with Minimal Gradient Dependence for High Unlearning Ratios [18.73206066109299]
ミニ・アンラーニング(Mini-Unlearning)は、批判的な観察を活かした新しいアプローチである。
この軽量でスケーラブルな方法は、モデルの精度を大幅に向上し、メンバシップ推論攻撃に対する耐性を高める。
実験の結果,Mini-Unlearningは非学習率が高いだけでなく,既存の手法よりも精度と安全性が優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-24T01:43:30Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Unlearning Backdoor Attacks through Gradient-Based Model Pruning [10.801476967873173]
本研究では,その軽減を未学習課題として扱うことによって,バックドア攻撃に対抗する新しい手法を提案する。
このアプローチは単純さと有効性を提供し、データ可用性に制限のあるシナリオに適しています。
論文 参考訳(メタデータ) (2024-05-07T00:36:56Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - Segue: Side-information Guided Generative Unlearnable Examples for
Facial Privacy Protection in Real World [64.4289385463226]
生成不可能な例としては、Segue: Side-information guided Generative unlearnable Exampleを提案する。
転送性を向上させるために,真のラベルや擬似ラベルなどの側面情報を導入する。
JPEG圧縮、敵対的トレーニング、およびいくつかの標準的なデータ拡張に抵抗することができる。
論文 参考訳(メタデータ) (2023-10-24T06:22:37Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。