論文の概要: Anatomy of Unlearning: The Dual Impact of Fact Salience and Model Fine-Tuning
- arxiv url: http://arxiv.org/abs/2602.19612v1
- Date: Mon, 23 Feb 2026 08:58:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.737843
- Title: Anatomy of Unlearning: The Dual Impact of Fact Salience and Model Fine-Tuning
- Title(参考訳): 未学習の解剖: ファクト・サリエンスとモデルファインチューニングの二重影響
- Authors: Borisiuk Anna, Andrey Savchenko, Alexander Panchecko, Elena Tutubalina,
- Abstract要約: 忘れられた知識が事前学習や教師付き微調整に由来するかどうかを考察する。
実験の結果,事前学習モデルとSFTモデルは未学習に対して異なる反応を示した。
- 参考スコア(独自算出の注目度): 46.879024765433265
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Machine Unlearning (MU) enables Large Language Models (LLMs) to remove unsafe or outdated information. However, existing work assumes that all facts are equally forgettable and largely ignores whether the forgotten knowledge originates from pretraining or supervised fine-tuning (SFT). In this paper, we introduce DUAL (Dual Unlearning Evaluation across Training Stages), a benchmark of 28.6k Wikidata-derived triplets annotated with fact popularity using Wikipedia link counts and LLM-based salience scores. Our experiments show that pretrained and SFT models respond differently to unlearning. An SFT step on the forget data yields smoother forgetting, more stable tuning, and 10-50% higher retention, while direct unlearning on pretrained models remains unstable and prone to relearning or catastrophic forgetting.
- Abstract(参考訳): マシン・アンラーニング(MU)により、LLM(Large Language Models)は安全でない情報や時代遅れの情報を削除することができる。
しかしながら、既存の研究は、すべての事実が等しく忘れられるものであり、忘れられた知識が事前学習または監督された微調整(SFT)に由来するかどうかをほとんど無視していると仮定している。
本稿では,Wikipedia リンク数と LLM ベースのサリエンススコアを用いて,事実に言及した 28.6k のウィキデータ由来のトリプレットのベンチマークである DUAL (Dual Unlearning Evaluation across Training Stages) を紹介する。
実験の結果,事前学習モデルとSFTモデルは未学習に対して異なる反応を示した。
忘れデータに対するSFTのステップは、よりスムーズな忘れ込み、より安定したチューニング、そして10-50%高い保持をもたらす一方、事前訓練されたモデルの直接の学習は不安定であり、再学習や破滅的な忘れ込みをしがちである。
関連論文リスト
- Unlearning That Lasts: Utility-Preserving, Robust, and Almost Irreversible Forgetting in LLMs [31.768387661474904]
大規模言語モデル(LLM)におけるアンラーニングでは、事前訓練されたモデルから特定の情報を正確に除去する。
これは、事前訓練中に取得した個人データや有害な知識を削除することで、LLMの安全性を確保するために重要である。
JensUnを導入し、Jensen-Shannon Divergenceをセットを忘れたり、保持したりするためのトレーニングの目的として活用する。
大規模な実験では、JensUnは競合するメソッドよりも忘れやすいトレードオフを実現し、再学習に強いレジリエンスを示しています。
論文 参考訳(メタデータ) (2025-09-02T20:38:53Z) - Distillation Robustifies Unlearning [36.27570321651185]
モデルのトレーニングは、基礎となる機能をそのまま残しながら、インプット・アウトプットの動作を大幅に変更できることを示す。
本研究では,未学習のモデルを自身のノイズコピーに蒸留するスケーラブルな手法であるUnlearn-Noise-Distill-on-Outputs (UNDO)を提案する。
論文 参考訳(メタデータ) (2025-06-06T17:58:54Z) - UniErase: Towards Balanced and Precise Unlearning in Language Models [69.04923022755547]
大規模言語モデル(LLM)は、古い情報問題に対処するために反復的な更新を必要とする。
UniEraseは、知識の未学習と能力保持の間の精度とバランスの取れたパフォーマンスを示す、新しいアンラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。