論文の概要: Surgical Knowledge Rewrite in Compact LLMs: An 'Unlearn-then-Learn' Strategy with ($IA^3$) for Localized Factual Modulation and Catastrophic Forgetting Mitigation
- arxiv url: http://arxiv.org/abs/2508.07075v1
- Date: Sat, 09 Aug 2025 18:48:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.685247
- Title: Surgical Knowledge Rewrite in Compact LLMs: An 'Unlearn-then-Learn' Strategy with ($IA^3$) for Localized Factual Modulation and Catastrophic Forgetting Mitigation
- Title(参考訳): コンパクトLLMにおける外科的知識の書き直し : 局所的なFactual ModulationとCaastrophic Forgetting Mitigationのための'Unlearn-then-Learn'戦略(IA^3$)
- Authors: Stanley Ngugi,
- Abstract要約: 本稿では,大規模言語モデルにおける正確な知識編集のための新しい「未学習学習戦略」を紹介し,評価する。
2段階のアプローチは、競合する事実を符号化する原因となる特定の内部コンポーネントを特定し、ターゲットとする初期回路ローカライゼーションフェーズによって実現される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) struggle with dynamic knowledge updates, especially when new information conflicts with deeply embedded facts. Such conflicting factual edits often lead to two critical issues: resistance to adopting the new fact and severe catastrophic forgetting of unrelated knowledge. This paper introduces and evaluates a novel "unlearn-then-learn" strategy for precise knowledge editing in LLMs, leveraging the parameter-efficient fine-tuning (PEFT) technique, Infused Adapter by Inhibiting and Amplifying Inner Activations ($IA^3$). Crucially, this two-stage approach is powered by an initial circuit localization phase that identifies and targets the specific internal components responsible for encoding the conflicting fact. Through a rigorous experimental methodology on microsoft/Phi-3-mini-4k-instruct, we demonstrate that this mechanistically informed two-stage approach achieves near-perfect accuracy (98.50%) for the new, modulated fact while simultaneously effectively suppressing the original conflicting fact (96.00% forget rate). Critically, our strategy exhibits unprecedented localization (72.00% F_control accuracy), dramatically mitigating catastrophic forgetting observed in direct fine-tuning approaches (which showed as low as ~20% F_control accuracy), a direct benefit of our targeted interpretability-guided intervention. Furthermore, qualitative analysis reveals a nuanced mechanism of "soft forgetting," where original knowledge is suppressed from default retrieval but remains latent and conditionally accessible, enhancing model safety and control. These findings represent a significant advancement towards precise, localized, and safe knowledge management in compact LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に新しい情報が深く埋め込まれた事実と矛盾する場合、動的知識更新に苦しむ。
このような矛盾する事実編集は、新しい事実を採用することへの抵抗と、無関係な知識の破滅的な忘れという2つの重大な問題を引き起こすことが多い。
本稿では, パラメータ効率細調整(PEFT)技術, Infused Adapter by Inhibiting and Amplifying Inner Activations(IA^3$)を活用した, LLMの正確な知識編集のための新しい「未学習学習」戦略を紹介し, 評価する。
重要なことに、この2段階のアプローチは、競合する事実を符号化する原因となる特定の内部コンポーネントを特定し、ターゲットとする初期回路のローカライゼーションフェーズによって実現されている。
マイクロソフト/Phi-3-mini-4k-インストラクタに関する厳密な実験手法により、このメカニカルに通知された2段階アプローチが、新しい変調事実に対してほぼ完璧な精度(98.50%)を達成し、同時に元の矛盾する事実(96.00%の忘れ率)を効果的に抑制することを示した。
極めて重要なことは,我々の戦略は前例のない局所化(72.00% F_control の精度)を示し,直接微調整アプローチ(20% F_control の精度が低い)で観察された破滅的忘れを劇的に軽減している。
さらに、定性的な分析により、デフォルトの検索からオリジナルの知識が抑制されるが、遅延性があり、条件付きでアクセス可能であり、モデルの安全性と制御が向上する「ソフト・ナッシング」のニュアンスなメカニズムが明らかにされる。
これらの知見は,コンパクトLLMにおける高精度で局所的で安全な知識管理に向けた重要な進歩を示すものである。
関連論文リスト
- Trustworthy Reasoning: Evaluating and Enhancing Factual Accuracy in LLM Intermediate Thought Processes [16.451488374845407]
本稿では,Large Language Models(LLMs)における重大な脆弱性に対処する新しいフレームワークを提案する。
この現象は、医療、法的な分析、科学研究など、高度な領域に重大なリスクをもたらす。
論文 参考訳(メタデータ) (2025-07-25T10:34:51Z) - UniErase: Unlearning Token as a Universal Erasure Primitive for Language Models [54.75551043657238]
学習可能なパラメトリック接尾辞(アンラーニングトークン)を用いて、ターゲットとなる忘れ行動に向けて言語モデルを操る新しいアンラーニングパラダイムであるUniEraseを紹介する。
UniEraseは、実世界の知識設定の下で、バッチ、シーケンシャル、そして正確なアンラーニングで、最先端のSOTA(State-of-the-art)パフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - Revealing the Intrinsic Ethical Vulnerability of Aligned Large Language Models [16.34270329099875]
プレトレーニング中に埋め込まれた有害な知識は、大きな言語モデルのパラメトリックメモリにおいて、信頼できない「暗黒パターン」として持続することを示す。
本研究ではまず,LLMの本質的な倫理的脆弱性を理論的に解析する。
本研究は,分布変化下での意味的コヒーレンス誘導を用いて実験により検証した。
論文 参考訳(メタデータ) (2025-04-07T13:20:17Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。