論文の概要: Quantifying Edits Decay in Fine-tuned LLMs
- arxiv url: http://arxiv.org/abs/2511.05852v1
- Date: Sat, 08 Nov 2025 04:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.617834
- Title: Quantifying Edits Decay in Fine-tuned LLMs
- Title(参考訳): 微調整LDMにおける編集劣化の定量化
- Authors: Yinjie Cheng, Paul Youssef, Christin Seifert, Jörg Schlötterer, Zhixue Zhao,
- Abstract要約: 本研究では,微調整が知識編集に与える影響について検討する。
我々は,2つの最先端編集手法(MEMIT,AlphaEdit)と3つの微調整手法を評価した。
以上の結果から,微調整後に編集が崩壊し,生存は構成によって異なることが明らかとなった。
- 参考スコア(独自算出の注目度): 17.377278510871843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge editing has emerged as a lightweight alternative to retraining for correcting or injecting specific facts in large language models (LLMs). Meanwhile, fine-tuning remains the default operation for adapting LLMs to new domains and tasks. Despite their widespread adoption, these two post-training interventions have been studied in isolation, leaving open a crucial question: if we fine-tune an edited model, do the edits survive? This question is motivated by two practical scenarios: removing covert or malicious edits, and preserving beneficial edits. If fine-tuning impairs edits as shown in Figure 1, current KE methods become less useful, as every fine-tuned model would require re-editing, which significantly increases the cost; if edits persist, fine-tuned models risk propagating hidden malicious edits, raising serious safety concerns. To this end, we systematically quantify edits decay after fine-tuning, investigating how fine-tuning affects knowledge editing. We evaluate two state-of-the-art editing methods (MEMIT, AlphaEdit) and three fine-tuning approaches (full-parameter, LoRA, DoRA) across five LLMs and three datasets, yielding 232 experimental configurations. Our results show that edits decay after fine-tuning, with survival varying across configurations, e.g., AlphaEdit edits decay more than MEMIT edits. Further, we propose selective-layer fine-tuning and find that fine-tuning edited layers only can effectively remove edits, though at a slight cost to downstream performance. Surprisingly, fine-tuning non-edited layers impairs more edits than full fine-tuning. Overall, our study establishes empirical baselines and actionable strategies for integrating knowledge editing with fine-tuning, and underscores that evaluating model editing requires considering the full LLM application pipeline.
- Abstract(参考訳): 知識編集は、大きな言語モデル(LLM)で特定の事実を修正または注入するためのリトレーニングに代わる軽量な代替手段として登場した。
一方、微調整はLLMを新しいドメインやタスクに適応するためのデフォルトの操作である。
広く採用されているにもかかわらず、これらの2つのトレーニング後の介入は別々に研究され、重要な疑問が残る。
この質問は、隠蔽または悪意のある編集を削除し、有益な編集を保存するという2つの実践的なシナリオによって動機付けられている。
微調整の障害が図1に示すように編集される場合、現在のKEメソッドは、すべての微調整のモデルが再編集を必要とするため、有用性が低下する。
そこで我々は,微調整後の編集劣化が知識編集にどのように影響するかを,体系的に定量化する。
我々は,2つの最先端編集手法 (MEMIT, AlphaEdit) と3つの微調整手法 (全パラメータ, LoRA, DoRA) を5つのLLMと3つのデータセットで評価し,232個の実験結果を得た。
以上の結果から,微調整後の編集が劣化し,例えばAlphaEditはMEMIT編集よりも劣化することがわかった。
さらに、選択層微調整法を提案し、微調整層は、ダウンストリーム性能に若干のコストをかけた編集を効果的に除去できるのみであることを示す。
驚いたことに、微調整されていないレイヤーは完全な微調整よりも多くの編集を損なう。
全体として,本研究は,知識編集と微調整を統合するための経験的ベースラインと実行可能な戦略を確立し,モデル編集を評価するためには完全なLLMアプリケーションパイプラインを考慮する必要があることを強調した。
関連論文リスト
- How Robust is Model Editing after Fine-Tuning? An Empirical Study on Text-to-Image Diffusion Models [7.342540592387184]
T2I拡散モデルにおけるモデル編集と微調整の相互作用について検討する。
編集が微調整によって継続できないのは、微調整が具体的あるいは無関係である場合であってもである。
これらの発見は、デプロイされたAIシステムの信頼性の高い長期的な制御とアライメントを保証するための、より堅牢な技術の必要性を強調している。
論文 参考訳(メタデータ) (2025-06-23T09:10:29Z) - Resolving UnderEdit & OverEdit with Iterative & Neighbor-Assisted Model Editing [10.54738347540608]
大規模言語モデル(LLM)は下流のタスクに広くデプロイされているが、リトレーニングや微調整によって知識を最新に保つことは、しばしば計算コストがかかる。
モデル編集は、ターゲットとするパラメータのサブセットを更新することで、より効率的な代替手段を提供する。
本稿では,UnderEditを緩和するために連続的な編集を行う反復的モデル編集法と,OverEditの削減のために,編集中に近隣の知識を取り入れた近隣モデル編集法との2つの補完手法を提案する。
論文 参考訳(メタデータ) (2025-03-14T21:53:12Z) - Constraining Sequential Model Editing with Editing Anchor Compression [40.93064933191375]
大型言語モデル(LLM)は、誤った知識や時代遅れの知識によって幻覚に苦しむ。
本稿では, 編集後のパラメータ行列が, 編集数の増加に伴って, 以前の状態と大きくずれていることを統計的に観察する。
逐次的編集におけるパラメータ行列の偏差を抑制するため,EAC (Editing Anchor Compression) というフレームワークが提案されている。
論文 参考訳(メタデータ) (2025-02-25T03:56:49Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue [122.20016030723043]
大規模言語モデル(LLM)におけるモデル編集の副作用を評価する。
分析の結果,モデルの重みを過度に修正したモデル編集によって副作用が生じることが明らかとなった。
これを軽減するために、修正の重み付けを正規化するためにRECTというメソッドが提案されている。
論文 参考訳(メタデータ) (2024-01-09T18:03:15Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。