論文の概要: Does Localization Inform Unlearning? A Rigorous Examination of Local Parameter Attribution for Knowledge Unlearning in Language Models
- arxiv url: http://arxiv.org/abs/2505.16252v1
- Date: Thu, 22 May 2025 05:41:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.061443
- Title: Does Localization Inform Unlearning? A Rigorous Examination of Local Parameter Attribution for Knowledge Unlearning in Language Models
- Title(参考訳): ローカライゼーションはアンラーニングを指示するか? : 言語モデルにおける知識アンラーニングのための局所パラメータ属性の厳密な検証
- Authors: Hwiyeong Lee, Uiji Hwang, Hyelim Lim, Taeuk Kim,
- Abstract要約: 大規模言語モデルは意図しない内容を保持することが多く、知識の学習への関心が高まる。
最近のアプローチでは、対象とする知識を取り除くために、特定の領域へのパラメータ更新を制限する局所的アンラーニングが強調されている。
本研究は,パラメータの局所性が本質的に効果的な知識除去の指標であるという,局所的未学習の中核的仮定に挑戦する。
- 参考スコア(独自算出の注目度): 3.8238762520607588
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models often retain unintended content, prompting growing interest in knowledge unlearning. Recent approaches emphasize localized unlearning, which restricts parameter updates to specific regions in an effort to remove target knowledge while preserving unrelated general knowledge. However, their effectiveness remains uncertain due to the lack of robust and thorough evaluation of the trade-off between the competing goals of unlearning. In this paper, we begin by revisiting existing localized unlearning approaches. We then conduct controlled experiments to rigorously evaluate whether local parameter updates causally contribute to unlearning. Our findings reveal that the set of parameters that must be modified for effective unlearning is not strictly determined, challenging the core assumption of localized unlearning that parameter locality is inherently indicative of effective knowledge removal.
- Abstract(参考訳): 大規模言語モデルは意図しない内容を保持することが多く、知識の学習への関心が高まる。
近年のアプローチでは,非関係な一般知識を維持しつつ,対象知識を除去する目的で,特定の領域へのパラメータ更新を制限する局所的アンラーニングが重視されている。
しかし、その効果は、未学習の競合する目標間のトレードオフの堅牢で徹底的な評価が欠如していることから、いまだに不確実である。
本稿では,既存の局所的未学習アプローチを再考することから始める。
次に、制御された実験を行い、局所的パラメータ更新が未学習に因果的に寄与するかどうかを厳格に評価する。
その結果, 効果的な未学習のために修正すべきパラメータの集合は厳密には決定されておらず, パラメータの局所性が本質的に効果的な知識除去の指標であるという局所的未学習の中核的な仮定に挑戦することが判明した。
関連論文リスト
- UniErase: Unlearning Token as a Universal Erasure Primitive for Language Models [54.75551043657238]
学習可能なパラメトリック接尾辞(アンラーニングトークン)を用いて、ターゲットとなる忘れ行動に向けて言語モデルを操る新しいアンラーニングパラダイムであるUniEraseを紹介する。
UniEraseは、実世界の知識設定の下で、バッチ、シーケンシャル、そして正確なアンラーニングで、最先端のSOTA(State-of-the-art)パフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - FaithUn: Toward Faithful Forgetting in Language Models by Investigating the Interconnectedness of Knowledge [24.858928681280634]
本研究では,非学習手法が相互接続した知識の消去に失敗する現象を指す「表面的非学習」という概念を新たに定義する。
この定義に基づいて、実世界の知識QA設定における未学習の忠実度を分析し評価する新しいベンチマーク、FaithUnを導入する。
我々は,知識関連ニューロンのみを更新し,忠実な未学習を実現する新しい未学習手法KLUEを提案する。
論文 参考訳(メタデータ) (2025-02-26T15:11:03Z) - Redefining Machine Unlearning: A Conformal Prediction-Motivated Approach [11.609354498110358]
機械学習は、訓練されたモデルから特定のデータの影響を取り除こうとする。
本稿では,UA と MIA にまたがる誤分類データには,予測セットに基礎的真理ラベルがまだ含まれていないことを明らかにする。
本稿では,記憶品質をより確実に評価する共形予測に着想を得た2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2025-01-31T18:58:43Z) - Improved Localized Machine Unlearning Through the Lens of Memorization [23.30800397324838]
我々は局所的アンラーニングについて研究し、未学習アルゴリズムはパラメータの小さなサブセットで動作する。
そこで我々は,既存の未学習アルゴリズムと組み合わせた場合,強力な結果が得られるローカライゼーション戦略を提案する。
また、最も重要とされるパラメータをリセットする新しい未学習アルゴリズムDeletion by Example Localization (DEL)を提案する。
論文 参考訳(メタデータ) (2024-12-03T12:57:08Z) - Gradient Localization Improves Lifelong Pretraining of Language Models [32.29298047707914]
WebスケールのテキストコーパスでトレーニングされたLarge Language Models (LLM) は、それらのパラメータの世界の知識をキャプチャする。
本研究では,時間的に敏感なエンティティに関する2種類の知識について検討し,それぞれのタイプがLLM内の異なるパラメータ集合に局所化されていることを示す。
論文 参考訳(メタデータ) (2024-11-07T05:43:50Z) - Dissecting Fine-Tuning Unlearning in Large Language Models [12.749301272512222]
微調整に基づく未学習法は、大規模言語モデルにおいて有害で機密性の高い、あるいは著作権のある情報を防ぐために一般的である。
しかし、これらの手法の真の有効性は明らかでない。
本研究では,アクティベーションパッチやリカバリ実験を通じて,微調整に基づくアンラーニングの限界を掘り下げる。
論文 参考訳(メタデータ) (2024-10-09T06:58:09Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。