論文の概要: Memorize or Generalize? Evaluating LLM Code Generation with Code Rewriting
- arxiv url: http://arxiv.org/abs/2503.02296v2
- Date: Tue, 30 Sep 2025 00:17:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:03.929996
- Title: Memorize or Generalize? Evaluating LLM Code Generation with Code Rewriting
- Title(参考訳): 記憶か一般化か? コード書き換えによるLLMコード生成の評価
- Authors: Lizhe Zhang, Wentao Chen, Li Zhong, Letian Peng, Zilong Wang, Jingbo Shang,
- Abstract要約: 大規模な言語モデル(LLM)は、主にメモリ化(トレーニングデータの大きな部分を複製または再利用する)と一般化(Generalization)を併用している、と我々は主張する。
既存の評価は、表面/構造的類似性を無視し、繰り返しコードの良質な再利用を有害なリコールと記憶タスクの正しさで混同する。
そこで我々は,2つの信号を組み合わせた正規化スコアである覚書リスク指標(MRI)を提案する。 (i) モデルが元の地平解とどのように類似しているか, (ii) 元のタスクから書き換えされたタスクにどの程度の性能が低下するか。
- 参考スコア(独自算出の注目度): 54.48306552577881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have recently demonstrated exceptional code generation capabilities. However, there is a growing debate whether LLMs are mostly doing memorization (i.e., replicating or reusing large parts of their training data) versus generalization (i.e., beyond training data). Existing evaluations largely proxy memorization with surface/structural similarity, thereby conflating benign reuse of repeated code with harmful recall and neglecting task correctness under semantic variation. We define harmful memorization behaviorally as failure at high similarity and introduce a semantic perturbation code rewriting, which rewrites a semantically different answer at a similar difficulty level for a given coding task, then reverse-engineers a novel coding task. We further propose Memorization Risk Index (MRI), a normalized score that combines two signals: (i) how similar the model's answer for the rewritten task is to the original ground-truth solution, and (ii) how much performance drops from the original task to its rewritten counterpart. MRI is high only when both conditions hold -- when the model outputs similar code but fails the perturbed task -- thereby capturing harmful memorization rather than benign reuse of repeated code. Empirical evaluations on code generation benchmarks MBPP+ and BigCodeBench reveal that (1) memorization does not increase with larger models and in many cases alleviates as they scale; (2) supervised fine-tuning (SFT) improves accuracy while introduces memorization; (3) reinforcement learning with proximal policy optimization (PPO) achieves a more balanced trade-off between memorization and generalization.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近、例外的なコード生成機能を示した。
しかし、LLMが主に記憶化(トレーニングデータの大きな部分を複製または再利用する)を行っているのか、それとも一般化(トレーニングデータ以外のもの)を行っているのか、という議論が増えている。
既存の評価は、主に表面/構造的類似性を反映し、繰り返しコードの良質な再利用を有害なリコールと混同し、意味的変動の下でタスクの正しさを無視する。
我々は、有害な暗記を高い類似性における失敗として定義し、意味論的摂動コード書き換えを導入し、与えられたコーディングタスクに対して同様の難易度で意味論的に異なる回答を書き直し、新しいコーディングタスクをリバースエンジニアリングする。
さらに,2つの信号を組み合わせた正規化スコアである記憶リスク指標(MRI)を提案する。
(i)リライトされたタスクに対するモデルの回答が、元の基盤真理解とどのように似ているか、
(ii)元のタスクから書き直されたタスクにどれだけのパフォーマンスが落ちるか。
どちらの条件も -- モデルが類似のコードを出力するが、混乱したタスクを失敗する場合に限り、MRIは高い。
コード生成ベンチマーク MBPP+ と BigCodeBench の実証評価では,(1) 暗記は大規模モデルでは増加せず,多くの場合,スケールするにつれて緩和される。(2) 教師付き微調整(SFT) は,暗記を導入しながら精度を向上し,(3) 近ポリシー最適化(PPO) による強化学習は,暗記と一般化の間でよりバランスの取れたトレードオフを達成する。
関連論文リスト
- Memorization Sinks: Isolating Memorization during LLM Training [20.682505625638203]
大規模な言語モデルは、繰り返しのシーケンスを記憶し、プライバシと著作権の懸念を訴えることに影響を受けやすい。
本稿では,設計による記憶の分離を促進するMemSinksの新しいパラダイムを提案する。
これは、同時一般化と分離が達成可能であることを示す実データに関する最初の概念実証である。
論文 参考訳(メタデータ) (2025-07-14T05:23:27Z) - Rethinking Repetition Problems of LLMs in Code Generation [36.42947561896802]
本稿では,Grammarをベースとした反復ペナライゼーションであるRPGという,効率的な復号化手法を提案する。
RPGはまず文法ルールを活用して、コード生成中に繰り返しの問題を特定し、その後、繰り返しに寄与するクリティカルトークンの可能性を戦略的に崩壊させる。
大規模な実験結果によると、RPGはCodeRepetEvalデータセット上で最高のパフォーマンスのベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-15T15:26:32Z) - The Pitfalls of Memorization: When Memorization Hurts Generalization [28.5600484308805]
記憶はトレーニングの損失をゼロに減らし、堅牢で一般化可能なパターンを学ぶインセンティブを残さない。
本稿では,保留予測を記憶の信号として用いて,モデルのロジットをシフトする記憶学習(MAT)を提案する。
論文 参考訳(メタデータ) (2024-12-10T17:18:33Z) - On Memorization of Large Language Models in Logical Reasoning [70.94164038947078]
大きな言語モデル(LLM)は、挑戦的な推論ベンチマークで優れたパフォーマンスを達成するが、基本的な推論ミスを発生させることもできる。
1つの仮説は、より高度でほぼ飽和した性能は、類似した問題の記憶が原因ではないかというものである。
微調整は暗記を重くするが,常に一般化性能を向上することを示す。
論文 参考訳(メタデータ) (2024-10-30T15:31:54Z) - Unlocking Memorization in Large Language Models with Dynamic Soft Prompting [66.54460367290146]
大規模言語モデル(LLM)は、要約、質問応答、翻訳などの自然言語処理(NLP)タスクに革命をもたらした。
LLMはトレーニングデータを記憶する傾向があるため、重大なセキュリティリスクを生じ、プライバシー侵害や著作権侵害につながる可能性がある。
動的,プレフィックスに依存したソフトプロンプトを用いたLLM記憶推定手法を提案する。
論文 参考訳(メタデータ) (2024-09-20T18:56:32Z) - Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。
我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。
その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文 参考訳(メタデータ) (2024-07-25T07:10:31Z) - Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - To Each (Textual Sequence) Its Own: Improving Memorized-Data Unlearning in Large Language Models [3.4990427823966828]
LLMは、テキスト生成期間中に、トレーニングされたテキストシーケンスを記憶し、動詞の入力シーケンスを退避させる。
この事実は、プライバシーと関連する問題(例えば、著作権)の原因として知られている。
LLMのアンラーニングは、これらの副作用に適切に対処する新しいアルゴリズムを考案する形で行われる。
論文 参考訳(メタデータ) (2024-05-06T01:21:50Z) - Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。
オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。
本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-10-10T15:41:26Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。