論文の概要: Understanding Robustness of Model Editing in Code LLMs: An Empirical Study
- arxiv url: http://arxiv.org/abs/2511.03182v1
- Date: Wed, 05 Nov 2025 04:58:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.330366
- Title: Understanding Robustness of Model Editing in Code LLMs: An Empirical Study
- Title(参考訳): コードLLMにおけるモデル編集のロバスト性:実証的研究
- Authors: Vinaik Chhetri, A. B Siddique, Umar Farooq,
- Abstract要約: 本稿では,5つの最先端モデル編集手法の体系的研究を行う。
これらの手法を3つの主要なオープンソースコードLLM、CodeLlama、CodeQwen1.5、DeepSeek-Coderに適用する。
インスタント編集はモデル性能を常に劣化させ、構文的妥当性は86ポイントまで低下し、機能的正しさは最高のパフォーマンス設定でも45ポイントまで低下する。
- 参考スコア(独自算出の注目度): 1.5624785508022727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used in software development. However, while LLMs remain static after pretraining, programming languages and APIs continue to evolve, leading to the generation of deprecated or incompatible code that undermines reliability. Retraining LLMs from scratch to reflect such changes is computationally expensive, making model editing a promising lightweight alternative that updates only a small subset of parameters. Despite its potential, it remains unclear whether model editing yields genuine syntactic and semantic adaptations or merely superficial fixes. In this work, we present a systematic study of five state-of-the-art model editing methods: Constrained Fine-Tuning (FT), GRACE, MEMIT, PMET, and ROME. We apply these methods to three leading open-source code LLMs, CodeLlama, CodeQwen1.5, and DeepSeek-Coder, under controlled API deprecation scenarios. Our evaluation covers both instant and sequential editing settings, using three disjoint evaluation sets designed to assess reliability, generalization, and specificity. We measure model correctness at three levels: successful compilation, partial test case pass, and full test pass. Our findings show that instant edits consistently degrade model performance, with syntactic validity dropping by up to 86 percentage points and functional correctness declining by 45 points even in the best-performing setting. Sequential edits further amplify this degradation, and in some cases, model performance collapses entirely. Across all models, most passing generations relied on workarounds rather than correctly adopting the intended changes, while faulty adoptions that result in test failures or compilation errors were significantly more frequent. Correct adoptions, where the model correctly integrates the intended change, occurred in only about 6% of cases.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェア開発でますます使われている。
しかし、LLMは事前トレーニング後に静的のままであるが、プログラミング言語とAPIは進化し続けており、非推奨または互換性のないコードが生成され、信頼性が損なわれている。
このような変更を反映するために、スクラッチからLLMをリトレーニングすることは、計算コストがかかるため、モデル編集は、少数のパラメータのみを更新する、有望な軽量な代替手段となる。
その可能性にもかかわらず、モデル編集が真の統語的・意味的な適応をもたらすか、単に表面的な修正をもたらすかは定かではない。
本研究では,5つの最先端モデル編集手法について,制約付ファインチューニング(FT),GRACE,MEMIT,PMET,ROMEの3つを体系的に検討する。
制御されたAPI非推奨シナリオの下で,これらの手法を3つの主要なオープンソースコードLLM,CodeLlama,CodeQwen1.5,DeepSeek-Coderに適用する。
本評価では、信頼性、一般化、特異性を評価するために設計された3つの不整合評価セットを用いて、インスタントおよびシーケンシャルな編集設定の両方をカバーしている。
モデルの正確性は、コンパイル成功、部分テストケースパス、完全テストパスの3つのレベルで測定します。
これらの結果から,構文的妥当性は86ポイントまで低下し,機能的正当性は45ポイントまで低下することがわかった。
逐次編集は、この劣化をさらに増幅し、場合によっては、モデルパフォーマンスは完全に崩壊する。
すべてのモデルで、ほとんどの世代は意図した変更を正しく採用するよりも回避策に頼っていた。
モデルが意図した変更を正しく統合する正しい採用は、わずか6%のケースで発生した。
関連論文リスト
- PrefixNLI: Detecting Factual Inconsistencies as Soon as They Arise [60.63315470285562]
MiniTruePrefixesは、テキストプレフィックスよりも事実上の矛盾をよりよく検出する、新しい特殊モデルである。
制御されたデコードフレームワークにMiniTruePrefixesを組み込むことで,抽象的な要約における現実の一貫性が大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-11-03T09:07:44Z) - STABLE: Gated Continual Learning for Large Language Models [0.0]
STABLEは、シーケンシャルな更新時に忘れることを制限する、ゲート付き連続的なセルフ編集フレームワークである。
各候補編集は3つの指標のうちの1つを用いて安定性の予算に対して評価される。
Qwen-2.5-7Bモデルの実験では、ゲーティングは適応性を保ちながら忘れを効果的に軽減することを示した。
論文 参考訳(メタデータ) (2025-10-17T16:14:05Z) - Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset [0.0]
本稿では,22の大規模C/C++プロジェクトから得られた関数レベル修正の信頼性の高いベンチマークであるReDefを紹介する。
欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。
このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
論文 参考訳(メタデータ) (2025-09-11T07:07:11Z) - The Mirage of Model Editing: Revisiting Evaluation in the Wild [70.17413507444704]
我々は、広く使われている質問応答(QA)データセットに対応する新しいベンチマークであるQAEditと、タスクに依存しない評価フレームワークであるWILDを紹介する。
単一の編集実験により、現在行われている編集手法は、以前報告したよりもかなり悪い結果が得られた。
論文 参考訳(メタデータ) (2025-02-16T15:57:55Z) - Rethinking the Residual Distribution of Locate-then-Editing Methods in Model Editing [14.958557185068]
モデル編集は、大規模言語モデルの知識をターゲットとする更新を可能にする。
location-then-editメソッドはまず重要なレイヤを識別し、ターゲットの編集に基づいて最後のクリティカルレイヤで残余を計算する。
これらの手法のコアメカニズムである残留分布は、編集精度を損なう重みシフト誤差をもたらす。
そこで我々は,位置列編集手法を強化するBLUE戦略を提案する。
論文 参考訳(メタデータ) (2025-02-06T03:20:17Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。