論文の概要: Does Localization Inform Unlearning? A Rigorous Examination of Local Parameter Attribution for Knowledge Unlearning in Language Models
- arxiv url: http://arxiv.org/abs/2505.16252v1
- Date: Thu, 22 May 2025 05:41:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.061443
- Title: Does Localization Inform Unlearning? A Rigorous Examination of Local Parameter Attribution for Knowledge Unlearning in Language Models
- Title(参考訳): ローカライゼーションはアンラーニングを指示するか? : 言語モデルにおける知識アンラーニングのための局所パラメータ属性の厳密な検証
- Authors: Hwiyeong Lee, Uiji Hwang, Hyelim Lim, Taeuk Kim,
- Abstract要約: 大規模言語モデルは意図しない内容を保持することが多く、知識の学習への関心が高まる。
最近のアプローチでは、対象とする知識を取り除くために、特定の領域へのパラメータ更新を制限する局所的アンラーニングが強調されている。
本研究は,パラメータの局所性が本質的に効果的な知識除去の指標であるという,局所的未学習の中核的仮定に挑戦する。
- 参考スコア(独自算出の注目度): 3.8238762520607588
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models often retain unintended content, prompting growing interest in knowledge unlearning. Recent approaches emphasize localized unlearning, which restricts parameter updates to specific regions in an effort to remove target knowledge while preserving unrelated general knowledge. However, their effectiveness remains uncertain due to the lack of robust and thorough evaluation of the trade-off between the competing goals of unlearning. In this paper, we begin by revisiting existing localized unlearning approaches. We then conduct controlled experiments to rigorously evaluate whether local parameter updates causally contribute to unlearning. Our findings reveal that the set of parameters that must be modified for effective unlearning is not strictly determined, challenging the core assumption of localized unlearning that parameter locality is inherently indicative of effective knowledge removal.
- Abstract(参考訳): 大規模言語モデルは意図しない内容を保持することが多く、知識の学習への関心が高まる。
近年のアプローチでは,非関係な一般知識を維持しつつ,対象知識を除去する目的で,特定の領域へのパラメータ更新を制限する局所的アンラーニングが重視されている。
しかし、その効果は、未学習の競合する目標間のトレードオフの堅牢で徹底的な評価が欠如していることから、いまだに不確実である。
本稿では,既存の局所的未学習アプローチを再考することから始める。
次に、制御された実験を行い、局所的パラメータ更新が未学習に因果的に寄与するかどうかを厳格に評価する。
その結果, 効果的な未学習のために修正すべきパラメータの集合は厳密には決定されておらず, パラメータの局所性が本質的に効果的な知識除去の指標であるという局所的未学習の中核的な仮定に挑戦することが判明した。
関連論文リスト
- Prompt Attacks Reveal Superficial Knowledge Removal in Unlearning Methods [0.9999629695552196]
素早い攻撃を受けると、いくつかの機械学習手法が失敗する可能性があることを示す。
アウトプットベース、ロジットベース、プローブ分析を用いて、未学習の知識がどの程度検索できるかを判断する。
論文 参考訳(メタデータ) (2025-06-11T23:36:30Z) - Do LLMs Really Forget? Evaluating Unlearning with Knowledge Correlation and Confidence Awareness [44.37155305736321]
大規模言語モデル(LLM)における意図しない記憶の軽減を目的とした機械学習手法
実世界の知識の暗黙構造をより正確に捉えた知識未学習評価フレームワークを提案する。
私たちのフレームワークは、未学習のパフォーマンスをより現実的で厳格に評価します。
論文 参考訳(メタデータ) (2025-06-06T04:35:19Z) - Graceful Forgetting in Generative Language Models [19.413048064877824]
生成言語モデルにおける優雅な忘れ込みを実現するための新しいフレームワークであるLearning With Forgettingを提案する。
Fisher Information Matrixは、意図したパラメータ更新を重み付け、LWFは、忘れるタスクに関する自己生成知識を評価するために、信頼を忘れることを計算する。
実験により,事前学習した言語モデルでは,知識相互作用のメカニズムを徹底的に解明することは依然として困難であるが,優雅な忘れ込みの適用は微調整性能の向上に寄与することが示された。
論文 参考訳(メタデータ) (2025-05-26T09:03:57Z) - UniErase: Unlearning Token as a Universal Erasure Primitive for Language Models [54.75551043657238]
学習可能なパラメトリック接尾辞(アンラーニングトークン)を用いて、ターゲットとなる忘れ行動に向けて言語モデルを操る新しいアンラーニングパラダイムであるUniEraseを紹介する。
UniEraseは、実世界の知識設定の下で、バッチ、シーケンシャル、そして正確なアンラーニングで、最先端のSOTA(State-of-the-art)パフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - FaithUn: Toward Faithful Forgetting in Language Models by Investigating the Interconnectedness of Knowledge [24.858928681280634]
本研究では,非学習手法が相互接続した知識の消去に失敗する現象を指す「表面的非学習」という概念を新たに定義する。
この定義に基づいて、実世界の知識QA設定における未学習の忠実度を分析し評価する新しいベンチマーク、FaithUnを導入する。
我々は,知識関連ニューロンのみを更新し,忠実な未学習を実現する新しい未学習手法KLUEを提案する。
論文 参考訳(メタデータ) (2025-02-26T15:11:03Z) - Redefining Machine Unlearning: A Conformal Prediction-Motivated Approach [11.609354498110358]
機械学習は、訓練されたモデルから特定のデータの影響を取り除こうとする。
本稿では,UA と MIA にまたがる誤分類データには,予測セットに基礎的真理ラベルがまだ含まれていないことを明らかにする。
本稿では,記憶品質をより確実に評価する共形予測に着想を得た2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2025-01-31T18:58:43Z) - Improved Localized Machine Unlearning Through the Lens of Memorization [23.30800397324838]
我々は局所的アンラーニングについて研究し、未学習アルゴリズムはパラメータの小さなサブセットで動作する。
そこで我々は,既存の未学習アルゴリズムと組み合わせた場合,強力な結果が得られるローカライゼーション戦略を提案する。
また、最も重要とされるパラメータをリセットする新しい未学習アルゴリズムDeletion by Example Localization (DEL)を提案する。
論文 参考訳(メタデータ) (2024-12-03T12:57:08Z) - Gradient Localization Improves Lifelong Pretraining of Language Models [32.29298047707914]
WebスケールのテキストコーパスでトレーニングされたLarge Language Models (LLM) は、それらのパラメータの世界の知識をキャプチャする。
本研究では,時間的に敏感なエンティティに関する2種類の知識について検討し,それぞれのタイプがLLM内の異なるパラメータ集合に局所化されていることを示す。
論文 参考訳(メタデータ) (2024-11-07T05:43:50Z) - RESTOR: Knowledge Recovery in Machine Unlearning [71.75834077528305]
Webスケールコーパスでトレーニングされた大規模な言語モデルは、プライベートまたはセンシティブな情報を含むことができる。
このようなデータポイントの効果を排除するために、いくつかの機械学習アルゴリズムが提案されている。
機械学習評価のためのRESTORフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T20:54:35Z) - Dissecting Fine-Tuning Unlearning in Large Language Models [12.749301272512222]
微調整に基づく未学習法は、大規模言語モデルにおいて有害で機密性の高い、あるいは著作権のある情報を防ぐために一般的である。
しかし、これらの手法の真の有効性は明らかでない。
本研究では,アクティベーションパッチやリカバリ実験を通じて,微調整に基づくアンラーニングの限界を掘り下げる。
論文 参考訳(メタデータ) (2024-10-09T06:58:09Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.03511469562013]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。
知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。
イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。