Fugu-MT 論文翻訳(概要): Memorize or Generalize? Evaluating LLM Code Generation with Evolved Questions

論文の概要: Memorize or Generalize? Evaluating LLM Code Generation with Evolved Questions

arxiv url: http://arxiv.org/abs/2503.02296v1
Date: Tue, 04 Mar 2025 05:39:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:39.104011
Title: Memorize or Generalize? Evaluating LLM Code Generation with Evolved Questions
Title（参考訳）: 記憶・一般化? 進化した質問によるLLMコード生成の評価
Authors: Wentao Chen, Lizhe Zhang, Li Zhong, Letian Peng, Zilong Wang, Jingbo Shang,
Abstract要約: LLM(Large Language Models)は、コード生成において暗記現象を示すことが知られている。本稿では, 突然変異, 言い換え, コード書き換えという3つの進化戦略を設計し, この現象を考察する。予想通り、監督された微調整が進むにつれて、暗記のスコアは過度に適合する前に上昇し、より厳しい暗記の可能性が示唆される。
参考スコア（独自算出の注目度）: 33.58518352911762
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are known to exhibit a memorization phenomenon in code generation: instead of truly understanding the underlying principles of a programming problem, they tend to memorize the original prompt and its solution together in the training. Consequently, when facing variants of the original problem, their answers very likely resemble the memorized solutions and fail to generalize. In this paper, we investigate this phenomenon by designing three evolution strategies to create variants: mutation, paraphrasing, and code-rewriting. By comparing the performance and AST similarity of the LLM-generated codes before and after these three evolutions, we develop a memorization score that positively correlates with the level of memorization. As expected, as supervised fine-tuning goes on, the memorization score rises before overfitting, suggesting more severe memorization. We demonstrate that common mitigation approaches, such as prompt translation and using evolved variants as data augmentation in supervised learning and reinforcement learning, either compromise the performance or fail to alleviate the memorization issue. Therefore, memorization remains a significant challenge in LLM code generation, highlighting the need for a more effective solution.
Abstract（参考訳）: 大きな言語モデル(LLM)は、コード生成において暗記現象を示すことで知られており、プログラミング問題の根底にある原則を真に理解する代わりに、トレーニングにおいて元のプロンプトとソリューションを共に記憶する傾向がある。したがって、元の問題の変種に直面すると、それらの答えは記憶された解と非常によく似ており、一般化に失敗する。本稿では, 突然変異, 言い換え, コード書き換えという3つの進化戦略を設計し, この現象を考察する。これらの3つの進化の前後におけるLLM生成符号の性能とAST類似性を比較することにより,記憶のレベルと正の相関関係を持つ記憶スコアを開発した。予想通り、監督された微調整が進むにつれて、暗記のスコアは過度に適合する前に上昇し、より厳しい暗記の可能性が示唆される。教師付き学習と強化学習におけるデータ強化として,即時翻訳や進化した変種を用いるような一般的な緩和アプローチが,性能を損なうか,記憶の問題を緩和できないかを示す。したがって、メモリ化はLLMコード生成において重要な課題であり、より効果的なソリューションの必要性を強調している。

関連論文リスト

Memorization Sinks: Isolating Memorization during LLM Training [20.682505625638203]
大規模な言語モデルは、繰り返しのシーケンスを記憶し、プライバシと著作権の懸念を訴えることに影響を受けやすい。本稿では,設計による記憶の分離を促進するMemSinksの新しいパラダイムを提案する。これは、同時一般化と分離が達成可能であることを示す実データに関する最初の概念実証である。
論文参考訳（メタデータ） (2025-07-14T05:23:27Z)
Rethinking Repetition Problems of LLMs in Code Generation [36.42947561896802]
本稿では,Grammarをベースとした反復ペナライゼーションであるRPGという,効率的な復号化手法を提案する。 RPGはまず文法ルールを活用して、コード生成中に繰り返しの問題を特定し、その後、繰り返しに寄与するクリティカルトークンの可能性を戦略的に崩壊させる。大規模な実験結果によると、RPGはCodeRepetEvalデータセット上で最高のパフォーマンスのベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-15T15:26:32Z)
The Pitfalls of Memorization: When Memorization Hurts Generalization [28.5600484308805]
記憶はトレーニングの損失をゼロに減らし、堅牢で一般化可能なパターンを学ぶインセンティブを残さない。本稿では,保留予測を記憶の信号として用いて,モデルのロジットをシフトする記憶学習(MAT)を提案する。
論文参考訳（メタデータ） (2024-12-10T17:18:33Z)
On Memorization of Large Language Models in Logical Reasoning [70.94164038947078]
大きな言語モデル(LLM)は、挑戦的な推論ベンチマークで優れたパフォーマンスを達成するが、基本的な推論ミスを発生させることもできる。 1つの仮説は、より高度でほぼ飽和した性能は、類似した問題の記憶が原因ではないかというものである。微調整は暗記を重くするが,常に一般化性能を向上することを示す。
論文参考訳（メタデータ） (2024-10-30T15:31:54Z)
Unlocking Memorization in Large Language Models with Dynamic Soft Prompting [66.54460367290146]
大規模言語モデル(LLM)は、要約、質問応答、翻訳などの自然言語処理(NLP)タスクに革命をもたらした。 LLMはトレーニングデータを記憶する傾向があるため、重大なセキュリティリスクを生じ、プライバシー侵害や著作権侵害につながる可能性がある。動的,プレフィックスに依存したソフトプロンプトを用いたLLM記憶推定手法を提案する。
論文参考訳（メタデータ） (2024-09-20T18:56:32Z)
Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文参考訳（メタデータ） (2024-07-25T07:10:31Z)
Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文参考訳（メタデータ） (2024-07-20T21:24:40Z)
To Each (Textual Sequence) Its Own: Improving Memorized-Data Unlearning in Large Language Models [3.4990427823966828]
LLMは、テキスト生成期間中に、トレーニングされたテキストシーケンスを記憶し、動詞の入力シーケンスを退避させる。この事実は、プライバシーと関連する問題(例えば、著作権)の原因として知られている。 LLMのアンラーニングは、これらの副作用に適切に対処する新しいアルゴリズムを考案する形で行われる。
論文参考訳（メタデータ） (2024-05-06T01:21:50Z)
Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文参考訳（メタデータ） (2023-10-10T15:41:26Z)
Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文参考訳（メタデータ） (2022-02-15T18:48:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。