Fugu-MT 論文翻訳(概要): Learned or Memorized ? Quantifying Memorization Advantage in Code LLMs

論文の概要: Learned or Memorized ? Quantifying Memorization Advantage in Code LLMs

arxiv url: http://arxiv.org/abs/2604.13997v1
Date: Wed, 15 Apr 2026 15:43:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-16 20:38:32.615054
Title: Learned or Memorized ? Quantifying Memorization Advantage in Code LLMs
Title（参考訳）: 学習か記憶か? コードLLMにおける記憶の量子化
Authors: Djiré Albérick Euraste, Kaboré Abdoul Kader, Jordan Samhi, Earl T. Barr, Jacques Klein, Tegawendé F. Bissyandé,
Abstract要約: 4つのタスクファミリーにまたがる19のベンチマークで8つのオープンソースコードLLMを評価した。感度パターンはモデルやタスクによって大きく異なる。これらのデータセットでは、モデルは直接記憶よりも学習された一般化に依存する可能性がある。
参考スコア（独自算出の注目度）: 12.31163751026309
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The lack of transparency about code datasets used to train large language models (LLMs) makes it difficult to detect, evaluate, and mitigate data leakage. We present a perturbation-based method to quantify memorization advantage in code LLMs, defined as the performance gap between likely seen and unseen inputs. We evaluate 8 open-source code LLMs on 19 benchmarks across four task families: code generation, code understanding, vulnerability detection, and bug fixing. Sensitivity patterns vary widely across models and tasks. For example, StarCoder reaches high sensitivity on some benchmarks (up to 0.8), while QwenCoder remains lower (mostly below 0.4), suggesting differences in generalization behavior. Task categories also differ: code summarization tends to show low sensitivity, whereas test generation is substantially higher. We then analyze two widely discussed benchmarks, CVEFixes and Defects4J, often suspected of leakage. Contrary to common concerns, both show low memorization advantage across models: CVEFixes remains below 0.1, and Defects4J is lower than other program repair benchmarks. These results suggest that, for these datasets, models may rely more on learned generalization than direct memorization. Overall, our findings provide evidence that memorization risk is highly task- and model-dependent, and highlight the need for stronger evaluation protocols, especially in security-focused settings.
Abstract（参考訳）: 大規模言語モデル(LLM)のトレーニングに使用されるコードデータセットに関する透明性の欠如は、データの漏洩を検出し、評価し、緩和することを困難にしている。本稿では,コードLLMにおける暗黙化の利点を定量化する摂動に基づく手法を提案する。我々は、コード生成、コード理解、脆弱性検出、バグ修正という、4つのタスクファミリにわたる19のベンチマークで8つのオープンソースコードLLMを評価した。感度パターンはモデルやタスクによって大きく異なる。例えば、StarCoderはいくつかのベンチマーク(0.8まで)で高い感度に達するが、QwenCoderはより低い(主に0.4以下)ため、一般化の振る舞いの違いが示唆される。コード要約は感度が低く、テスト生成は大幅に高い傾向にある。次に、広く議論されている2つのベンチマーク、CVEFixesとDefects4Jを分析します。 CVEFixesは0.1以下であり、Defects4Jは他のプログラム修復ベンチマークよりも低い。これらの結果は、これらのデータセットに対して、モデルは直接記憶よりも学習された一般化に依存する可能性があることを示唆している。全体として,メモリ化リスクはタスク依存とモデル依存が強く,特にセキュリティを重視した環境では,より強力な評価プロトコルの必要性が強調されている。

関連論文リスト

Diverse LLMs vs. Vulnerabilities: Who Detects and Fixes Them Better? [1.0026496861838445]
DVDR-LLMは様々な大きな言語モデルの出力を組み合わせたアンサンブルフレームワークである。評価の結果,DVDR-LLMは個々のモデルの平均性能よりも10-12%高い検出精度を示した。
論文参考訳（メタデータ） (2025-12-14T03:47:39Z)
Memorize or Generalize? Evaluating LLM Code Generation with Code Rewriting [54.48306552577881]
大規模な言語モデル(LLM)は、主にメモリ化(トレーニングデータの大きな部分を複製または再利用する)と一般化(Generalization)を併用している、と我々は主張する。既存の評価は、表面/構造的類似性を無視し、繰り返しコードの良質な再利用を有害なリコールと記憶タスクの正しさで混同する。そこで我々は,2つの信号を組み合わせた正規化スコアである覚書リスク指標(MRI)を提案する。 (i) モデルが元の地平解とどのように類似しているか, (ii) 元のタスクから書き換えされたタスクにどの程度の性能が低下するか。
論文参考訳（メタデータ） (2025-03-04T05:39:24Z)
Are Large Language Models Memorizing Bug Benchmarks? [6.640077652362016]
大規模言語モデル(LLM)は、コード生成、バグ検出、修復など、様々なソフトウェアエンジニアリングタスクに不可欠なものになっている。ソフトウェアエンジニアリングコミュニティの懸念は、ベンチマークがデータ漏洩のリスクのため、真のLLMパフォーマンスを確実に反映していないことだ。一般的なLSMを系統的に評価し、広く使われているバグベンチマークからデータ漏洩に対する感受性を評価する。
論文参考訳（メタデータ） (2024-11-20T13:46:04Z)
DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (2024-01-09T15:46:38Z)
Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-11-16T13:17:20Z)
Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文参考訳（メタデータ） (2023-11-10T08:01:23Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。