論文の概要: Forget to Know, Remember to Use: Context-Aware Unlearning for Large Language Models
- arxiv url: http://arxiv.org/abs/2510.17620v1
- Date: Mon, 20 Oct 2025 15:03:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.120955
- Title: Forget to Know, Remember to Use: Context-Aware Unlearning for Large Language Models
- Title(参考訳): Forget to Know, Remember to Use: 大規模言語モデルのためのコンテキスト認識アンラーニング
- Authors: Yuefeng Peng, Parnian Afshar, Megan Ganji, Thomas Butler, Amir Houmansadr, Mingxian Wang, Dezhi Hong,
- Abstract要約: 大規模な言語モデルは、機密情報や削除が必要な時代遅れの知識を符号化することができる。
Unlearningは、モデルユーティリティ全体を保持しながら、特定の知識を削除することを目的とした、完全なリトレーニングの効率的な代替手段である。
- 参考スコア(独自算出の注目度): 17.249936460923045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models may encode sensitive information or outdated knowledge that needs to be removed, to ensure responsible and compliant model responses. Unlearning has emerged as an efficient alternative to full retraining, aiming to remove specific knowledge while preserving overall model utility. Existing evaluations of unlearning methods focus on (1) the extent of forgetting of the target knowledge (forget set) and (2) maintaining performance on the retain set (i.e., utility). However, these evaluations overlook an important usability aspect: users may still want the model to leverage the removed information if it is re-introduced in the prompt. In a systematic evaluation of six state-of-the-art unlearning methods, we find that they consistently impair such contextual utility. To address this, we augment unlearning objectives with a plug-in term that preserves the model's ability to use forgotten knowledge when it is present in context. Extensive experiments demonstrate that our approach restores contextual utility to near original levels while still maintaining effective forgetting and retain-set utility.
- Abstract(参考訳): 大規模な言語モデルは、機密情報や、取り除かなければならない時代遅れの知識をエンコードして、責任のあるモデル応答を確実にする。
Unlearningは、モデルユーティリティ全体を保持しながら、特定の知識を取り除くことを目的として、完全なリトレーニングの効果的な代替手段として登場した。
既存のアンラーニング手法の評価は,(1)目標知識(目標集合)を忘れる程度,(2)保持集合(実用性)の性能を維持することに焦点を当てている。
しかし、これらの評価は、重要なユーザビリティの側面を見落としている。ユーザは、もしプロンプトで再導入された場合、削除された情報を利用するモデルを欲しがるかもしれない。
最先端の6つのアンラーニング手法の体系的評価では、このような文脈的有用性を常に損なうことが判明した。
これを解決するために,モデルがコンテキスト内に存在するときに,忘れられた知識を使用する能力を保持するプラグイン用語で,未学習の目的を増強する。
広範にわたる実験により,本手法は効果的な忘れ忘れ・保留ユーティリティを維持しつつ,文脈的ユーティリティをほぼ元のレベルに復元することを示した。
関連論文リスト
- Direct Token Optimization: A Self-contained Approach to Large Language Model Unlearning [9.42887167048224]
マシン・アンラーニング(英: Machine unlearning)は、トレーニングデータのサブセット(ターゲットセット)の影響を、完全なリトレーニングなしでモデルから排除する新興技術である。
重要な課題は、モデルが全体的なユーティリティを損なうことなく、忘れた集合の知識を完全に忘れることである。
我々は,大規模言語モデルに対する自己完結型非学習手法であるダイレクトトークン最適化(DTO)を提案する。
論文 参考訳(メタデータ) (2025-09-30T18:05:06Z) - Memory Self-Regeneration: Uncovering Hidden Knowledge in Unlearned Models [1.3654763247057877]
モデルが知識を忘れ、思い出す能力について考察する。
本稿では,失った知識の効果的な回復を支援するための再生的アプローチとして,MemoRa戦略を提案する。
論文 参考訳(メタデータ) (2025-09-26T19:11:01Z) - Unlearning That Lasts: Utility-Preserving, Robust, and Almost Irreversible Forgetting in LLMs [31.768387661474904]
大規模言語モデル(LLM)におけるアンラーニングでは、事前訓練されたモデルから特定の情報を正確に除去する。
これは、事前訓練中に取得した個人データや有害な知識を削除することで、LLMの安全性を確保するために重要である。
JensUnを導入し、Jensen-Shannon Divergenceをセットを忘れたり、保持したりするためのトレーニングの目的として活用する。
大規模な実験では、JensUnは競合するメソッドよりも忘れやすいトレードオフを実現し、再学習に強いレジリエンスを示しています。
論文 参考訳(メタデータ) (2025-09-02T20:38:53Z) - Step-by-Step Reasoning Attack: Revealing 'Erased' Knowledge in Large Language Models [9.719371187651591]
未学習のテクニックは、その知識を表面下で抑制し、残すことで、正しいプロンプトで取り出すことができる。
我々は、段階的に推論に基づくブラックボックス攻撃であるSleekを導入し、非学習障害を体系的に暴露する。
生成した敵のプロンプトのうち62.5%がWHPの未発表のラマから忘れられたハリー・ポッターの事実を回収し、50%は不当な知識の抑制を暴露した。
論文 参考訳(メタデータ) (2025-06-14T04:22:17Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [81.62767292169225]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
確率摂動に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
TOFU、Harry Potter、ZsRE、WMDP、MUSEなど、さまざまなデータセットで実験が行われている。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - ReLearn: Unlearning via Learning for Large Language Models [64.2802606302194]
本研究では、効果的なアンラーニングのためのデータ拡張および微調整パイプラインであるReLearnを提案する。
このフレームワークでは、知識レベルの保存を測定するために、知識獲得率(KFR)と知識保持率(KRR)を導入している。
実験の結果,ReLearnは高品質な出力を保ちながら,目標とするリセットを実現することができた。
論文 参考訳(メタデータ) (2025-02-16T16:31:00Z) - RESTOR: Knowledge Recovery in Machine Unlearning [71.75834077528305]
Webスケールコーパスでトレーニングされた大規模な言語モデルは、プライベートまたはセンシティブな情報を含むことができる。
このようなデータポイントの効果を排除するために、いくつかの機械学習アルゴリズムが提案されている。
機械学習評価のためのRESTORフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T20:54:35Z) - Dissecting Fine-Tuning Unlearning in Large Language Models [12.749301272512222]
微調整に基づく未学習法は、大規模言語モデルにおいて有害で機密性の高い、あるいは著作権のある情報を防ぐために一般的である。
しかし、これらの手法の真の有効性は明らかでない。
本研究では,アクティベーションパッチやリカバリ実験を通じて,微調整に基づくアンラーニングの限界を掘り下げる。
論文 参考訳(メタデータ) (2024-10-09T06:58:09Z) - UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI [50.61495097098296]
大規模言語モデル(LLM)におけるアンラーニングのパラダイムを再考する。
未学習の概念を導入し、未学習の知識を文脈内で再導入する。
我々は、不寛容な知識に対するコンテンツフィルタリングが不可欠であり、正確な未学習スキームでさえ、効果的なコンテンツ規制には不十分であると主張している。
論文 参考訳(メタデータ) (2024-06-27T10:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。