Fugu-MT 論文翻訳(概要): KUDA: Knowledge Unlearning by Deviating Representation for Large Language Models

論文の概要: KUDA: Knowledge Unlearning by Deviating Representation for Large Language Models

arxiv url: http://arxiv.org/abs/2602.19275v2
Date: Tue, 24 Feb 2026 18:28:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 15:32:50.755322
Title: KUDA: Knowledge Unlearning by Deviating Representation for Large Language Models
Title（参考訳）: KUDA: 大規模言語モデルのための表現を考案した知識アンラーニング
Authors: Ce Fang, Zhikun Zhang, Min Chen, Qing Liu, Lu Zhou, Zhe Liu, Yunjun Gao,
Abstract要約: 大規模言語モデル(LLM)は、多種多様なコーパスの事前学習を通じて大量の知識を得る。 LLMのアンラーニングは、トレーニングデータにおける機密性、著作権、有害なコンテンツに関連するリスクを減らすための有望なテクニックである。本研究では,LLMの知識レベルでの効果的な学習を実現するために,Deviating representAtion (KUDA) を用いた知識未学習を提案する。
参考スコア（独自算出の注目度）: 26.418820118903852
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) acquire a large amount of knowledge through pre-training on vast and diverse corpora. While this endows LLMs with strong capabilities in generation and reasoning, it amplifies risks associated with sensitive, copyrighted, or harmful content in training data. LLM unlearning, which aims to remove specific knowledge encoded within models, is a promising technique to reduce these risks. However, existing LLM unlearning methods often force LLMs to generate random or incoherent answers due to their inability to alter the encoded knowledge precisely. To achieve effective unlearning at the knowledge level of LLMs, we propose Knowledge Unlearning by Deviating representAtion (KUDA). We first utilize causal tracing to locate specific layers for target knowledge storage. We then design a new unlearning objective that induces the model's representations to deviate from its original position in the phase of knowledge removal, thus disrupting the ability to associate with the target knowledge. To resolve the optimization conflicts between forgetting and retention, we employ a relaxation null-space projection mechanism to mitigate the disruption to the representation space of retaining knowledge. Extensive experiments on representative benchmarks, WMDP and MUSE, demonstrate that KUDA outperforms most existing baselines by effectively balancing knowledge removal and model utility retention.
Abstract（参考訳）: 大規模言語モデル(LLM)は、多種多様なコーパスの事前学習を通じて大量の知識を得る。これは、ジェネレーションと推論において強力な能力を持つLCMを提供するが、トレーニングデータにおける機密性、著作権、有害なコンテンツに関連するリスクを増幅する。 LLMアンラーニングは、モデル内で符号化された特定の知識を取り除くことを目的としており、これらのリスクを減らすための有望なテクニックである。しかし、既存のLLMアンラーニング手法は、符号化された知識を正確に変更できないため、LLMにランダムまたは不整合な回答を強制することが多い。 LLMの知識レベルで効果的なアンラーニングを実現するために,Deviating representAtion (KUDA) による知識アンラーニングを提案する。まず、因果トレースを用いて、特定のレイヤを目標とする知識記憶の場所を特定する。次に,学習対象の知識の除去段階において,モデルが本来の位置から逸脱し,対象の知識に関連付ける能力が損なわれるような,新たな学習対象を設計する。記憶と保持の間の最適化の矛盾を解決するために,知識を保持する表現空間の破壊を軽減するために,緩和型ヌル空間投影機構を用いる。代表ベンチマーク(WMDP)とMUSE(MUSE)の広範な実験により、KUDAは知識除去とモデルユーティリティ保持の効果的なバランスをとることにより、既存のベースラインよりも優れていることが示された。

関連論文リスト

Hindsight Distillation Reasoning with Knowledge Encouragement Preference for Knowledge-based Visual Question Answering [55.368681418311894]
既存の知識に基づくビジュアル質問回答 (KBVQA) 手法は、マルチモーダルな大規模言語モデル (MLLM) における暗黙的な知識をコンテキスト内学習または検索拡張生成による明示的な知識を介して利用する。 KEPO(Knowledge Encouragement Preference Optimization)を用いたHindsight Distilled Reasoning(HinD)フレームワークを提供する。 OK-VQAとA-OKVQAの実験によりHinDの有効性が検証され、7BサイズのMLLMから推論したHinDが商用モデルAPIや外部知識を使わずに優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-11-14T10:03:23Z)
Concept Unlearning in Large Language Models via Self-Constructed Knowledge Triplets [20.968820590988333]
本研究では,大規模言語モデル(LLM)のアンラーニングの新たな要件として概念アンラーニング(CU)を導入する。我々は、LLMの内部知識を表現するために知識グラフを活用し、CUを、忘れられるターゲットノードと関連するエッジを取り除くものとして定義する。本手法は,学習過程とLLMの内部知識表現を整合させることにより,より正確で包括的な概念の除去を可能にする。
論文参考訳（メタデータ） (2025-09-19T05:34:45Z)
Large Language Model Unlearning for Source Code [65.42425213605114]
PRODは、LLMがコード生成能力を保ちながら、望ましくないコード内容を忘れることができる新しいアンラーニングアプローチである。本評価は,既存の未学習アプローチと比較して,忘れ品質とモデルユーティリティのバランスが良好であることを示す。
論文参考訳（メタデータ） (2025-06-20T16:27:59Z)
Unveiling Knowledge Utilization Mechanisms in LLM-based Retrieval-Augmented Generation [77.10390725623125]
検索強化世代(RAG)は知識範囲の拡大に広く利用されている。 RAGは、オープンドメインの質問応答のような知識集約的なタスクを約束しているので、複雑なタスクやインテリジェントアシスタントへの幅広い応用は、その実用性をさらに進歩させてきた。本稿では、RAGが内部(パラメトリック)知識と外部(検索)知識を統合する本質的なメカニズムを体系的に検討する。
論文参考訳（メタデータ） (2025-05-17T13:13:13Z)
KaLM: Knowledge-aligned Autoregressive Language Modeling via Dual-view Knowledge Graph Contrastive Learning [74.21524111840652]
本稿では、textitKnowledge-aligned Language Modeling アプローチである textbfKaLM を提案する。明示的な知識アライメントと暗黙的な知識アライメントという共同目的を通じて、KG知識と整合するように、自己回帰的な大規模言語モデルを微調整する。特に,本手法は知識駆動型タスクの評価において顕著な性能向上を実現している。
論文参考訳（メタデータ） (2024-12-06T11:08:24Z)
KBM: Delineating Knowledge Boundary for Adaptive Retrieval in Large Language Models [69.99274367773997]
大規模言語モデル(LLM)は知識を動的に変化させ、未知の静的情報を扱うのにしばしば苦労する。 Retrieval-Augmented Generation (RAG) はこれらの課題に対処するために使われ、LLMの性能向上に大きな影響を与えている。本稿では,ある質問の既知/未知を表現し,RAGを起動する必要があるかどうかを判断するための知識境界モデル(KBM)を提案する。
論文参考訳（メタデータ） (2024-11-09T15:12:28Z)
UNLEARN Efficient Removal of Knowledge in Large Language Models [1.9797215742507548]
本稿では,UNLEARNと呼ばれる新しい手法を提案する。このアプローチは、LLMの他の知識に悪影響を及ぼすことなく、知識の除去を識別し、特にターゲットとするサブスペース法に基づいている。その結果、対象とする知識の96%は、元のモデルの2.5%の範囲内で、他の知識のパフォーマンスを維持しながら、忘れられることを示した。
論文参考訳（メタデータ） (2024-08-08T00:53:31Z)
Towards Safer Large Language Models through Machine Unlearning [19.698620794387338]
SKU(Selective Knowledge Unlearning)は、有害な知識を排除し、通常のプロンプトで実用性を維持するために設計されている。第1段階は、モデル内の有害な知識を特定し、取得することを目的としており、第2段階は、この知識を取り除くことを目的としている。本実験は,有害情報除去と有効性維持のバランス点をSKUが特定できることを実証した。
論文参考訳（メタデータ） (2024-02-15T16:28:34Z)
Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文参考訳（メタデータ） (2024-02-13T20:51:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。