論文の概要: Beyond Superficial Forgetting: Thorough Unlearning through Knowledge Density Estimation and Block Re-insertion
- arxiv url: http://arxiv.org/abs/2511.11667v1
- Date: Tue, 11 Nov 2025 14:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:22.883272
- Title: Beyond Superficial Forgetting: Thorough Unlearning through Knowledge Density Estimation and Block Re-insertion
- Title(参考訳): 表面的フォーミングを超えて:知識密度推定とブロック再挿入を通した難解な未学習
- Authors: Feng Guo, Yuntao Wen, Shen Gao, Junshuo Zhang, Shuo Shang,
- Abstract要約: 大規模言語モデルに対するブロック再帰(KUnBR)による知識密度誘導学習を提案する。
KUnBRは有害な知識の豊富なレイヤを特定し、再挿入戦略を通じて有害な知識を徹底的に排除する。
いくつかのアンラーニングおよび一般機能ベンチマークで実施された実験は、KUnBRが最先端の忘れたパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 27.526437626781597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine unlearning, which selectively removes harmful knowledge from a pre-trained model without retraining from scratch, is crucial for addressing privacy, regulatory compliance, and ethical concerns in Large Language Models (LLMs). However, existing unlearning methods often struggle to thoroughly remove harmful knowledge, leaving residual harmful knowledge that can be easily recovered. To address these limitations, we propose Knowledge Density-Guided Unlearning via Blocks Reinsertion (KUnBR), a novel approach that first identifies layers with rich harmful knowledge and then thoroughly eliminates the harmful knowledge via re-insertion strategy. Our method introduces knowledge density estimation to quantify and locate layers containing the most harmful knowledge, enabling precise unlearning. Additionally, we design a layer re-insertion strategy that extracts and re-inserts harmful knowledge-rich layers into the original LLM, bypassing gradient obstruction caused by cover layers and ensuring effective gradient propagation during unlearning. Extensive experiments conducted on several unlearning and general capability benchmarks demonstrate that KUnBR achieves state-of-the-art forgetting performance while maintaining model utility.
- Abstract(参考訳): スクラッチからトレーニングすることなく、トレーニング済みのモデルから有害な知識を選択的に除去する機械学習は、Large Language Models(LLMs)のプライバシ、規制コンプライアンス、倫理的懸念に対処するために不可欠である。
しかし、既存の未学習の手法は、しばしば有害な知識を徹底的に取り除くのに苦労し、容易に回収できる有害な知識を残している。
このような制約に対処するため,ブロック・リサーション(KUnBR)を用いた知識密度ガイド型アンラーニング(KunBR)を提案し,まず,有害な知識を豊富に識別し,再挿入戦略によって有害な知識を徹底的に除去する手法を提案する。
本手法では,最も有害な知識を含むレイヤを定量化し,特定するために,知識密度推定を導入し,正確なアンラーニングを可能にする。
さらに,有害な知識豊富な層を抽出・再挿入する層再挿入戦略を設計し,表層による勾配障害を回避し,未学習時の効果的な勾配伝播を確保する。
いくつかのアンラーニングおよび一般機能ベンチマークで実施された大規模な実験は、KUnBRがモデルユーティリティを維持しながら最先端の忘れパフォーマンスを達成することを示した。
関連論文リスト
- KORE: Enhancing Knowledge Injection for Large Multimodal Models via Knowledge-Oriented Augmentations and Constraints [29.0623696841584]
大規模マルチモーダルモデルは、事前訓練された重量における広範な事実知識を符号化する。
既存の方法は、しばしば新しい知識を学ぶのに苦労し、破滅的な忘れに苦しむ。
古い知識を保ちながら,大規模なマルチモーダルモデルに新たな知識を注入する方法である KORE を提案する。
論文 参考訳(メタデータ) (2025-10-22T07:26:55Z) - Understanding the Dilemma of Unlearning for Large Language Models [50.54260066313032]
Unlearningは、大きな言語モデル(LLM)から特定の知識を取り除こうとしている。
提案するunPactは,帰納的帰属とコントリビューショントラッキングによるアンラーニングのための解釈可能なフレームワークである。
論文 参考訳(メタデータ) (2025-09-29T12:15:19Z) - Step-by-Step Reasoning Attack: Revealing 'Erased' Knowledge in Large Language Models [9.719371187651591]
未学習のテクニックは、その知識を表面下で抑制し、残すことで、正しいプロンプトで取り出すことができる。
我々は、段階的に推論に基づくブラックボックス攻撃であるSleekを導入し、非学習障害を体系的に暴露する。
生成した敵のプロンプトのうち62.5%がWHPの未発表のラマから忘れられたハリー・ポッターの事実を回収し、50%は不当な知識の抑制を暴露した。
論文 参考訳(メタデータ) (2025-06-14T04:22:17Z) - Safety Alignment via Constrained Knowledge Unlearning [11.225354394106226]
我々は、新しい安全アライメント戦略、制約付き知識アンラーニング(CKU)を提案する。
CKUは、知識のローカライゼーションと保持、有害な知識の学習の2つの主な目的に焦点を当てている。
実験の結果,CKUは全体の性能を損なうことなくモデル安全性を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-05-24T08:29:50Z) - Enhancing LLM Knowledge Learning through Generalization [73.16975077770765]
我々は,LLMが様々な言い換えの文脈に与えられた同じ事実的知識トークンを継続的に予測する能力は,質問応答によってその知識を抽出する能力と正の相関性を示す。
そこで本稿では,LLMの知識獲得能力を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-03-05T17:56:20Z) - InfuserKI: Enhancing Large Language Models with Knowledge Graphs via Infuser-Guided Knowledge Integration [58.61492157691623]
知識を統合する手法が開発され、外部モジュールを通してLLMをドメイン固有の知識グラフに拡張した。
本研究は,未知の知識をLLMに効率的に統合することで,未知の知識を不要に重複させるという,新たな問題に焦点をあてる。
新しい知識を導入するリスクは、既存の知識を忘れることである。
論文 参考訳(メタデータ) (2024-02-18T03:36:26Z) - Towards Safer Large Language Models through Machine Unlearning [19.698620794387338]
SKU(Selective Knowledge Unlearning)は、有害な知識を排除し、通常のプロンプトで実用性を維持するために設計されている。
第1段階は、モデル内の有害な知識を特定し、取得することを目的としており、第2段階は、この知識を取り除くことを目的としている。
本実験は,有害情報除去と有効性維持のバランス点をSKUが特定できることを実証した。
論文 参考訳(メタデータ) (2024-02-15T16:28:34Z) - Learning with Recoverable Forgetting [77.56338597012927]
学習wIth Recoverable Forgettingは、タスクまたはサンプル固有の知識の除去とリカバリを明示的に処理する。
具体的には、LIRFは2つの革新的なスキーム、すなわち知識預金と離脱をもたらす。
いくつかのデータセットで実験を行い、提案したLIRF戦略が一般化能力を満足させる結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-07-17T16:42:31Z) - Preserving Earlier Knowledge in Continual Learning with the Help of All
Previous Feature Extractors [63.21036904487014]
時間とともに新しい知識の継続的な学習は、インテリジェントシステムがより多くのオブジェクトのクラスを認識するのに望ましい能力の1つである。
これまでに学んだすべての特徴抽出器をインテリジェントモデルに組み込むことで、シンプルで効果的な融合メカニズムを提案します。
複数の分類タスクの実験により,提案手法は従来の知識の忘れを効果的に減らし,最先端の継続的学習性能を達成できることが示されている。
論文 参考訳(メタデータ) (2021-04-28T07:49:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。