Fugu-MT 論文翻訳(概要): A Metamorphic Testing Approach to Diagnosing Memorization in LLM-Based Program Repair

論文の概要: A Metamorphic Testing Approach to Diagnosing Memorization in LLM-Based Program Repair

arxiv url: http://arxiv.org/abs/2604.21579v1
Date: Thu, 23 Apr 2026 11:59:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-24 14:40:06.478846
Title: A Metamorphic Testing Approach to Diagnosing Memorization in LLM-Based Program Repair
Title（参考訳）: LLMプログラム修復における暗記診断のための準同型テスト手法
Authors: Milan De Koning, Ali Asgari, Pouria Derakhshanfar, Annibale Panichella,
Abstract要約: 大規模言語モデル(LLM)は、評価ベンチマークが事前トレーニングデータと重なり合うとバグ修正を記憶し、パフォーマンスの見積もりが膨らむ。メタモルフィックテスト (MT) と負の対数類似度 (NLL) を組み合わせることにより, データの漏洩を明らかにすることができるかを検討する。以上の結果から,GPT-4oでは4.1%,Llama-3.1では15.98%と,パッチ生成率の大幅な低下が認められた。
参考スコア（独自算出の注目度）: 9.198826017433388
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LLM-based automated program repair (APR) techniques have shown promising results in reducing debugging costs. However, prior results can be affected by data leakage: large language models (LLMs) may memorize bug fixes when evaluation benchmarks overlap with their pretraining data, leading to inflated performance estimates. In this paper, we investigate whether we can better reveal data leakage by combining metamorphic testing (MT) with negative log-likelihood (NLL), which has been used in prior work as a proxy for memorization. We construct variant benchmarks by applying semantics-preserving transformations to two widely used datasets, Defects4J and GitBug-Java. Using these benchmarks, we evaluate the repair success rates of seven LLMs on both original and transformed versions, and analyze the relationship between performance degradation and NLL. Our results show that all evaluated state-of-the-art LLMs exhibit substantial drops in patch generation success rates on transformed benchmarks, ranging from -4.1% for GPT-4o to -15.98% for Llama-3.1. Furthermore, we find that this degradation strongly correlates with NLL on the original benchmarks, suggesting that models perform better on instances they are more likely to have memorized. These findings show that combining MT with NLL provides stronger and more reliable evidence of data leakage, while metamorphic testing alone can help mitigate its effects in LLM-based APR evaluations.
Abstract（参考訳）: LLMベースの自動プログラム修復(APR)技術は、デバッグコストの削減に有望な結果を示している。大規模な言語モデル(LLM)は、評価ベンチマークが事前トレーニングされたデータと重なるとバグ修正を記憶し、パフォーマンスの見積もりが膨らみます。本稿では,過去の研究で暗記のプロキシとして用いられてきた,メタモルフィックテスト (MT) と負の対数類似度 (NLL) を組み合わせることで,データ漏洩を明らかにすることができるかどうかを検討する。 Defects4JとGitBug-Javaの2つの広く使われているデータセットにセマンティクス保存変換を適用することで、異種ベンチマークを構築します。これらのベンチマークを用いて、オリジナル版とトランスフォーメーション版の両方で7つのLLMの修復成功率を評価し、性能劣化とNLLの関係を解析した。以上の結果から,GPT-4oでは4.1%,Llama-3.1では15.98%と,パッチ生成率の大幅な低下が認められた。さらに、この劣化は、元のベンチマークでNLLと強く相関していることが分かり、モデルがインスタンス上でより良く機能する可能性が示唆された。これらの結果から,MTとNLLを組み合わせることで,データ漏洩のより強く信頼性の高い証拠が得られた。

論文の概要: A Metamorphic Testing Approach to Diagnosing Memorization in LLM-Based Program Repair

関連論文リスト