論文の概要: KUDA: Knowledge Unlearning by Deviating Representation for Large Language Models
- arxiv url: http://arxiv.org/abs/2602.19275v2
- Date: Tue, 24 Feb 2026 18:28:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 15:32:50.755322
- Title: KUDA: Knowledge Unlearning by Deviating Representation for Large Language Models
- Title(参考訳): KUDA: 大規模言語モデルのための表現を考案した知識アンラーニング
- Authors: Ce Fang, Zhikun Zhang, Min Chen, Qing Liu, Lu Zhou, Zhe Liu, Yunjun Gao,
- Abstract要約: 大規模言語モデル(LLM)は、多種多様なコーパスの事前学習を通じて大量の知識を得る。
LLMのアンラーニングは、トレーニングデータにおける機密性、著作権、有害なコンテンツに関連するリスクを減らすための有望なテクニックである。
本研究では,LLMの知識レベルでの効果的な学習を実現するために,Deviating representAtion (KUDA) を用いた知識未学習を提案する。
- 参考スコア(独自算出の注目度): 26.418820118903852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) acquire a large amount of knowledge through pre-training on vast and diverse corpora. While this endows LLMs with strong capabilities in generation and reasoning, it amplifies risks associated with sensitive, copyrighted, or harmful content in training data. LLM unlearning, which aims to remove specific knowledge encoded within models, is a promising technique to reduce these risks. However, existing LLM unlearning methods often force LLMs to generate random or incoherent answers due to their inability to alter the encoded knowledge precisely. To achieve effective unlearning at the knowledge level of LLMs, we propose Knowledge Unlearning by Deviating representAtion (KUDA). We first utilize causal tracing to locate specific layers for target knowledge storage. We then design a new unlearning objective that induces the model's representations to deviate from its original position in the phase of knowledge removal, thus disrupting the ability to associate with the target knowledge. To resolve the optimization conflicts between forgetting and retention, we employ a relaxation null-space projection mechanism to mitigate the disruption to the representation space of retaining knowledge. Extensive experiments on representative benchmarks, WMDP and MUSE, demonstrate that KUDA outperforms most existing baselines by effectively balancing knowledge removal and model utility retention.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多種多様なコーパスの事前学習を通じて大量の知識を得る。
これは、ジェネレーションと推論において強力な能力を持つLCMを提供するが、トレーニングデータにおける機密性、著作権、有害なコンテンツに関連するリスクを増幅する。
LLMアンラーニングは、モデル内で符号化された特定の知識を取り除くことを目的としており、これらのリスクを減らすための有望なテクニックである。
しかし、既存のLLMアンラーニング手法は、符号化された知識を正確に変更できないため、LLMにランダムまたは不整合な回答を強制することが多い。
LLMの知識レベルで効果的なアンラーニングを実現するために,Deviating representAtion (KUDA) による知識アンラーニングを提案する。
まず、因果トレースを用いて、特定のレイヤを目標とする知識記憶の場所を特定する。
次に,学習対象の知識の除去段階において,モデルが本来の位置から逸脱し,対象の知識に関連付ける能力が損なわれるような,新たな学習対象を設計する。
記憶と保持の間の最適化の矛盾を解決するために,知識を保持する表現空間の破壊を軽減するために,緩和型ヌル空間投影機構を用いる。
代表ベンチマーク(WMDP)とMUSE(MUSE)の広範な実験により、KUDAは知識除去とモデルユーティリティ保持の効果的なバランスをとることにより、既存のベースラインよりも優れていることが示された。
関連論文リスト
- Concept Unlearning in Large Language Models via Self-Constructed Knowledge Triplets [20.968820590988333]
本研究では,大規模言語モデル(LLM)のアンラーニングの新たな要件として概念アンラーニング(CU)を導入する。
我々は、LLMの内部知識を表現するために知識グラフを活用し、CUを、忘れられるターゲットノードと関連するエッジを取り除くものとして定義する。
本手法は,学習過程とLLMの内部知識表現を整合させることにより,より正確で包括的な概念の除去を可能にする。
論文 参考訳(メタデータ) (2025-09-19T05:34:45Z) - Towards Safer Large Language Models through Machine Unlearning [19.698620794387338]
SKU(Selective Knowledge Unlearning)は、有害な知識を排除し、通常のプロンプトで実用性を維持するために設計されている。
第1段階は、モデル内の有害な知識を特定し、取得することを目的としており、第2段階は、この知識を取り除くことを目的としている。
本実験は,有害情報除去と有効性維持のバランス点をSKUが特定できることを実証した。
論文 参考訳(メタデータ) (2024-02-15T16:28:34Z) - Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究
このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文 参考訳(メタデータ) (2024-02-13T20:51:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。