論文の概要: Collapse of Irrelevant Representations (CIR) Ensures Robust and Non-Disruptive LLM Unlearning
- arxiv url: http://arxiv.org/abs/2509.11816v1
- Date: Mon, 15 Sep 2025 11:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.258993
- Title: Collapse of Irrelevant Representations (CIR) Ensures Robust and Non-Disruptive LLM Unlearning
- Title(参考訳): 非関連表現(CIR)の崩壊はロバストと非破壊的LLM学習を確実にする
- Authors: Filip Sondej, Yushi Yang,
- Abstract要約: 現在のアンラーニング技術と安全トレーニングは、言語モデルから危険な知識を取り除くのに一貫して失敗する。
本稿では, 汎用性能を損なうことなく, 頑健に学習できる高選択的手法を提案する。
- 参考スコア(独自算出の注目度): 2.0994256694380096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current unlearning techniques and safety training consistently fail to remove dangerous knowledge from language models. We analyze the root causes and propose a highly selective technique which unlearns robustly and without disrupting general performance. We perform PCA on activations and module output gradients to identify subspaces containing common representations, and collapse them before calculating unlearning updates. This way we avoid unlearning general representations, and only target those specific to the unlearned facts. When unlearning WMDP dataset facts from Llama-3.1-8B, we drop post-attack accuracy 80x more than our best baseline (Circuit Breakers) on biohazardous facts and 30x more on cyberhazardous facts. Despite this, we disrupt general performance 30x less (only 0.1% WikiText loss increase), while requiring less than 3 GPU-seconds per fact.
- Abstract(参考訳): 現在のアンラーニング技術と安全トレーニングは、言語モデルから危険な知識を取り除くのに一貫して失敗する。
本稿では,根本原因を解析し,高い選択性を有する手法を提案する。
我々は、アクティベーションとモジュール出力勾配に基づいてPCAを実行し、共通表現を含む部分空間を特定し、未学習更新を計算する前にそれらを崩壊させる。
このようにして、学習されていない一般的な表現を避け、学習されていない事実に特有のものだけをターゲットにします。
Llama-3.1-8BからWMDPデータセットの事実をアンラーニングすると、バイオハザードな事実とサイバーハザードな事実をベースライン(Circuit Breakers)の80倍の精度で、サイバーハザードな事実を30倍の精度で分析する。
それにもかかわらず、一般的なパフォーマンスを30倍に(わずか0.1%のWikiText損失の増加)破壊し、実際GPU秒は3秒未満である。
関連論文リスト
- Model Collapse Is Not a Bug but a Feature in Machine Unlearning for LLMs [44.8238758047607]
LLMの現在の未学習方法は、学習目的に組み込むことで、削除しようとしているプライベート情報に基づいて最適化されている。
センシティブなデータへの露出を抑えるリスクだけでなく、その使用を最小化するという原則にも反する、と我々は主張する。
本研究では,未学習目標を学習対象に含まないPMC(Partial Model Collapse)を提案する。
論文 参考訳(メタデータ) (2025-07-06T03:08:49Z) - Unlearning Isn't Deletion: Investigating Reversibility of Machine Unlearning in LLMs [19.525112900768534]
モデルはしばしば忘れられるが、元の動作は最小限の微調整で迅速に復元できる。
そこで本研究では,PCAに基づく類似性とシフト,カーネルアライメント中心,フィッシャー情報を用いた表現レベル評価フレームワークを提案する。
このツールキットを6つの未学習の手法、3つのドメイン(テキスト、コード、数学)、そして2つのオープンソース LLM に適用することにより、可逆性と不可逆性(inversible)な忘れの区別を明らかにする。
論文 参考訳(メタデータ) (2025-05-22T16:02:10Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [70.78205685001168]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
UGBenchは、スコープ内暗黙の知識の未学習を評価するために特別に設計された最初のベンチマークである。
確率に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - From Theft to Bomb-Making: The Ripple Effect of Unlearning in Defending Against Jailbreak Attacks [85.84979847888157]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に弱いことが知られている。
LLMは、学習期間中に明示的に導入されなかった有害な知識を暗黙的に引き起こすことができる。
我々は、この現象を実証的に検証し、未学習の手法でアタック成功率を下げることを可能にする。
論文 参考訳(メタデータ) (2024-07-03T07:14:05Z) - Large Language Model Unlearning via Embedding-Corrupted Prompts [10.889859281637406]
大規模言語モデルのための軽量なアンラーニングフレームワークである textbfEmbedding-COrrupted (ECO) Prompts を提案する。
推論中に未学習の状態を識別し、忘れるプロンプトを保護するためにプロンプト分類器を用いて強制する。
その結果, 学習対象を満足させるだけでなく, 忘れることを意図したデータに基づいて訓練されたことのないモデルから得られる出力を, より正確に近似できることがわかった。
論文 参考訳(メタデータ) (2024-06-12T06:56:20Z) - What Can We Learn from Unlearnable Datasets? [107.12337511216228]
学習不可能なデータセットは、ディープニューラルネットワークの一般化を防ぐことによって、データのプライバシを保護する可能性がある。
学習不可能なデータセットでトレーニングされたニューラルネットワークは、一般化には役に立たない単純なルールであるショートカットのみを学ぶと広く信じられている。
これとは対照的に,ネットワークは高いテスト性能を期待できる有用な特徴を実際に学習することができ,画像保護が保証されていないことを示唆している。
論文 参考訳(メタデータ) (2023-05-30T17:41:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。