論文の概要: Sparse-Autoencoder-Guided Internal Representation Unlearning for Large Language Models
- arxiv url: http://arxiv.org/abs/2509.15631v1
- Date: Fri, 19 Sep 2025 05:48:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.016085
- Title: Sparse-Autoencoder-Guided Internal Representation Unlearning for Large Language Models
- Title(参考訳): Sparse-Autoencoder-Guided Internal Representation Unlearning for Large Language Models
- Authors: Tomoya Yamashita, Akira Ito, Yuuki Yamanaka, Masanori Yamada, Takayuki Miura, Toshiki Shibahara,
- Abstract要約: モデルの内部アクティベーションに介入する新しいアンラーニング手法を提案する。
「対象の内的活性化を未知の実体と整合させることで、対象の実体の認識を「未知」から「未知」にシフトさせる。」
本手法は,非対象知識に大きなダメージを与えることなく,質問応答タスクにおける対象知識のリコールを効果的に削減する。
- 参考スコア(独自算出の注目度): 8.590330924532092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are increasingly deployed across various applications, privacy and copyright concerns have heightened the need for more effective LLM unlearning techniques. Many existing unlearning methods aim to suppress undesirable outputs through additional training (e.g., gradient ascent), which reduces the probability of generating such outputs. While such suppression-based approaches can control model outputs, they may not eliminate the underlying knowledge embedded in the model's internal activations; muting a response is not the same as forgetting it. Moreover, such suppression-based methods often suffer from model collapse. To address these issues, we propose a novel unlearning method that directly intervenes in the model's internal activations. In our formulation, forgetting is defined as a state in which the activation of a forgotten target is indistinguishable from that of ``unknown'' entities. Our method introduces an unlearning objective that modifies the activation of the target entity away from those of known entities and toward those of unknown entities in a sparse autoencoder latent space. By aligning the target's internal activation with those of unknown entities, we shift the model's recognition of the target entity from ``known'' to ``unknown'', achieving genuine forgetting while avoiding over-suppression and model collapse. Empirically, we show that our method effectively aligns the internal activations of the forgotten target, a result that the suppression-based approaches do not reliably achieve. Additionally, our method effectively reduces the model's recall of target knowledge in question-answering tasks without significant damage to the non-target knowledge.
- Abstract(参考訳): 大規模言語モデル(LLM)が様々なアプリケーションにまたがって展開されるにつれて、プライバシーと著作権に関する懸念が、より効果的なLLMアンラーニング技術の必要性を高めている。
既存の未学習手法の多くは、追加のトレーニング(例えば勾配上昇)を通じて望ましくない出力を抑えることを目的としており、そのような出力を生成する確率を減少させる。
このような抑制ベースのアプローチはモデル出力を制御することができるが、モデルの内部アクティベーションに埋め込まれた基礎的な知識を排除しないかもしれない。
さらに、このような抑制に基づく手法は、しばしばモデル崩壊に悩まされる。
これらの問題に対処するために,モデルの内部アクティベーションに直接介入する新しいアンラーニング手法を提案する。
我々の定式化では、忘れられたターゲットのアクティベーションが ``unknown'' エンティティと区別できない状態として定義されている。
本手法では,未知のエンティティに対して,未知のエンティティに対して,スパースオートエンコーダの潜在空間において,対象エンティティのアクティベーションを変更する未学習目的を導入する。
ターゲットの内部のアクティベーションを未知のエンティティのアクティベートと整合させることで、対象エンティティの認識を ``known'' から ``unknown'' にシフトし、過剰なプレッシャーやモデルの崩壊を回避しつつ、真に忘れることを実現する。
実験により, 提案手法は, 忘れられた対象の内的活性化を効果的に調整し, 抑制に基づくアプローチが確実に達成できないことを示す。
さらに,本手法は,非対象知識に大きなダメージを与えることなく,質問応答タスクにおける対象知識のリコールを効果的に削減する。
関連論文リスト
- Reliable Unlearning Harmful Information in LLMs with Metamorphosis Representation Projection [17.369869625390894]
本稿では,機械学習における形態素表現投影(MRP)手法を提案する。
特定のネットワーク層の隠れ状態空間にプロジェクティブ変換を実装することにより,有用な知識を保ちながら有害情報を効果的に除去する。
実験により,本手法は効果的な継続的アンラーニングを可能にし,再学習攻撃に対する防御に成功していることが示された。
論文 参考訳(メタデータ) (2025-08-21T11:12:09Z) - Model Collapse Is Not a Bug but a Feature in Machine Unlearning for LLMs [44.8238758047607]
LLMの現在の未学習方法は、学習目的に組み込むことで、削除しようとしているプライベート情報に基づいて最適化されている。
センシティブなデータへの露出を抑えるリスクだけでなく、その使用を最小化するという原則にも反する、と我々は主張する。
本研究では,未学習目標を学習対象に含まないPMC(Partial Model Collapse)を提案する。
論文 参考訳(メタデータ) (2025-07-06T03:08:49Z) - UniErase: Unlearning Token as a Universal Erasure Primitive for Language Models [54.75551043657238]
学習可能なパラメトリック接尾辞(アンラーニングトークン)を用いて、ターゲットとなる忘れ行動に向けて言語モデルを操る新しいアンラーニングパラダイムであるUniEraseを紹介する。
UniEraseは、実世界の知識設定の下で、バッチ、シーケンシャル、そして正確なアンラーニングで、最先端のSOTA(State-of-the-art)パフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - Dissecting Fine-Tuning Unlearning in Large Language Models [12.749301272512222]
微調整に基づく未学習法は、大規模言語モデルにおいて有害で機密性の高い、あるいは著作権のある情報を防ぐために一般的である。
しかし、これらの手法の真の有効性は明らかでない。
本研究では,アクティベーションパッチやリカバリ実験を通じて,微調整に基づくアンラーニングの限界を掘り下げる。
論文 参考訳(メタデータ) (2024-10-09T06:58:09Z) - UNLEARN Efficient Removal of Knowledge in Large Language Models [1.9797215742507548]
本稿では,UNLEARNと呼ばれる新しい手法を提案する。
このアプローチは、LLMの他の知識に悪影響を及ぼすことなく、知識の除去を識別し、特にターゲットとするサブスペース法に基づいている。
その結果、対象とする知識の96%は、元のモデルの2.5%の範囲内で、他の知識のパフォーマンスを維持しながら、忘れられることを示した。
論文 参考訳(メタデータ) (2024-08-08T00:53:31Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.40798352740857]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。
知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。
イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究
このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文 参考訳(メタデータ) (2024-02-13T20:51:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。