論文の概要: A Metamorphic Testing Approach to Diagnosing Memorization in LLM-Based Program Repair
- arxiv url: http://arxiv.org/abs/2604.21579v1
- Date: Thu, 23 Apr 2026 11:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.478846
- Title: A Metamorphic Testing Approach to Diagnosing Memorization in LLM-Based Program Repair
- Title(参考訳): LLMプログラム修復における暗記診断のための準同型テスト手法
- Authors: Milan De Koning, Ali Asgari, Pouria Derakhshanfar, Annibale Panichella,
- Abstract要約: 大規模言語モデル(LLM)は、評価ベンチマークが事前トレーニングデータと重なり合うとバグ修正を記憶し、パフォーマンスの見積もりが膨らむ。
メタモルフィックテスト (MT) と負の対数類似度 (NLL) を組み合わせることにより, データの漏洩を明らかにすることができるかを検討する。
以上の結果から,GPT-4oでは4.1%,Llama-3.1では15.98%と,パッチ生成率の大幅な低下が認められた。
- 参考スコア(独自算出の注目度): 9.198826017433388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-based automated program repair (APR) techniques have shown promising results in reducing debugging costs. However, prior results can be affected by data leakage: large language models (LLMs) may memorize bug fixes when evaluation benchmarks overlap with their pretraining data, leading to inflated performance estimates. In this paper, we investigate whether we can better reveal data leakage by combining metamorphic testing (MT) with negative log-likelihood (NLL), which has been used in prior work as a proxy for memorization. We construct variant benchmarks by applying semantics-preserving transformations to two widely used datasets, Defects4J and GitBug-Java. Using these benchmarks, we evaluate the repair success rates of seven LLMs on both original and transformed versions, and analyze the relationship between performance degradation and NLL. Our results show that all evaluated state-of-the-art LLMs exhibit substantial drops in patch generation success rates on transformed benchmarks, ranging from -4.1% for GPT-4o to -15.98% for Llama-3.1. Furthermore, we find that this degradation strongly correlates with NLL on the original benchmarks, suggesting that models perform better on instances they are more likely to have memorized. These findings show that combining MT with NLL provides stronger and more reliable evidence of data leakage, while metamorphic testing alone can help mitigate its effects in LLM-based APR evaluations.
- Abstract(参考訳): LLMベースの自動プログラム修復(APR)技術は、デバッグコストの削減に有望な結果を示している。
大規模な言語モデル(LLM)は、評価ベンチマークが事前トレーニングされたデータと重なるとバグ修正を記憶し、パフォーマンスの見積もりが膨らみます。
本稿では,過去の研究で暗記のプロキシとして用いられてきた,メタモルフィックテスト (MT) と負の対数類似度 (NLL) を組み合わせることで,データ漏洩を明らかにすることができるかどうかを検討する。
Defects4JとGitBug-Javaの2つの広く使われているデータセットにセマンティクス保存変換を適用することで、異種ベンチマークを構築します。
これらのベンチマークを用いて、オリジナル版とトランスフォーメーション版の両方で7つのLLMの修復成功率を評価し、性能劣化とNLLの関係を解析した。
以上の結果から,GPT-4oでは4.1%,Llama-3.1では15.98%と,パッチ生成率の大幅な低下が認められた。
さらに、この劣化は、元のベンチマークでNLLと強く相関していることが分かり、モデルがインスタンス上でより良く機能する可能性が示唆された。
これらの結果から,MTとNLLを組み合わせることで,データ漏洩のより強く信頼性の高い証拠が得られた。
関連論文リスト
- Benchmark Leakage Trap: Can We Trust LLM-based Recommendation? [9.574427977779235]
本稿は,LLM ベースの推薦におけるベンチマークデータ漏洩という,これまで見過ごされてきた問題を特定し,検討する。
データ漏洩はLLMベースのレコメンデーションにおいて重要な要因であり、真のモデルパフォーマンスに影響を与える可能性がある。
論文 参考訳(メタデータ) (2026-02-14T06:34:19Z) - LessLeak-Bench: A First Investigation of Data Leakage in LLMs Across 83 Software Engineering Benchmarks [15.584759853972992]
大規模言語モデル(LLM)は、コード生成やプログラムの自動修復といったソフトウェア工学(SE)タスクで広く利用されている。
広範囲かつしばしば開示されていない事前トレーニングデータセットへの依存は、データ漏洩に関する重大な懸念を提起する。
本稿では,LLM に関する 83 SE ベンチマークにおいて,データ漏洩の大規模解析を行った。
論文 参考訳(メタデータ) (2025-02-10T07:33:49Z) - Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation [61.350306618479365]
ベンチマークの漏洩は、大規模言語モデルの真のパフォーマンスの正確な評価を防ぐことができる。
この問題に対処するため,ITD(Inference-Time Decontamination)を提案する。
ITDは、GSM8Kで22.9%、MMLUで19.0%の膨張精度を低下させる。
論文 参考訳(メタデータ) (2024-06-20T04:35:59Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。