論文の概要: How Many Tries Does It Take? Iterative Self-Repair in LLM Code Generation Across Model Scales and Benchmarks
- arxiv url: http://arxiv.org/abs/2604.10508v1
- Date: Sun, 12 Apr 2026 07:51:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.063879
- Title: How Many Tries Does It Take? Iterative Self-Repair in LLM Code Generation Across Model Scales and Benchmarks
- Title(参考訳): どれくらいの試行が必要か? LLMコード生成におけるモデルスケールとベンチマークの反復的自己修復
- Authors: Johin Johny Arimbur,
- Abstract要約: 7つの大言語モデルにわたる反復的自己修復について検討する。
HumanEvalとMBPPは最大5回の試行で衛生化され、自己修復はパスレートを普遍的に改善する。
エラータイプの分析では、アサーションエラーは45%で修正するのが最も難しいが、構文や名前のエラーはかなり高い速度で修正される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models frequently fail to produce correct code on their first attempt, yet most benchmarks evaluate them in a single-shot setting. We investigate iterative self-repair (feeding execution errors back to the model for correction) across seven models spanning three families and both open-weight and proprietary providers: Llama 3.1 8B, Llama 3.3 70B, Llama 4 Scout (MoE, 16 experts), Llama 4 Maverick (MoE, 128 experts), Qwen3 32B, Gemini 2.5 Flash, and Gemini 2.5 Pro. On HumanEval (164 problems) and MBPP Sanitized (257 problems) with up to five attempts, self-repair universally improves pass rates: +4.9 to +17.1 pp on HumanEval and +16.0 to +30.0 pp on MBPP. Gemini 2.5 Flash achieves the highest final pass rates (96.3% HumanEval, 93.8% MBPP). Most gains concentrate in the first two rounds.Error-type analysis shows assertion errors (logical mistakes) are the hardest to repair at ~45%, while syntax and name errors are repaired at substantially higher rates, connecting to broader findings on the limits of LLM self-correction. Prior work found that weaker models fail at self-repair or require fine-tuning; we show that modern instruction-tuned models succeed with prompting alone, even at 8B scale. We also provide the first comparison of dense and MoE architectures for self-repair, and extend the repair-vs-resampling tradeoff analysis to modern models. A prompt ablation reveals chain-of-thought repair yields up to +5.5 pp additional self-repair gain (measured as improvement in repair delta) over minimal prompting for capable models.
- Abstract(参考訳): 大規模な言語モデルは、最初の試行で正しいコードを生成することができないことが多いが、ほとんどのベンチマークは、それらを単発で評価する。
Llama 3.1 8B, Llama 3.3 70B, Llama 4 Scout (MoE, 16 expert), Llama 4 Maverick (MoE, 128 experts), Qwen3 32B, Gemini 2.5 Flash, Gemini 2.5 Pro という,3つのモデルとオープンかつプロプライエタリなプロバイダにまたがる反復的な自己修復(修正モデルへの実行エラーの返却)について検討する。
最大5回の試行でHumanEval (164問題)とMBPPの衛生化(257問題)について、自己修復は、HumanEval の +4.9 から +17.1 pp、MBPP の +16.0 から +30.0 pp のパスレートを普遍的に改善する。
Gemini 2.5 Flashは最高パスレート(96.3%のHumanEval、93.8%のMBPP)を達成した。
誤り型分析では、アサーションエラー(論理的誤り)は45%程度で最も修理が難しいが、構文や名前の誤りは、LLM自己補正の限界に関する広範な知見と結びついている。
以前の研究では、弱いモデルは自己修復に失敗するか、微調整が必要であった。
また、自己修復のための高密度およびMoEアーキテクチャを初めて比較し、修復-vs-resamplingトレードオフ解析を現代的なモデルに拡張する。
プロンプトアブレーションにより、能力のあるモデルに対する最小限のプロンプトよりも、+5.5ppの自己修復利得(修理デルタの改善として測定される)が生じる。
関連論文リスト
- Decomposing LLM Self-Correction: The Accuracy-Correction Paradox and Error Depth Hypothesis [6.901585308625979]
自己補正を3つのサブ機能に分解する。
本研究は,モデル能力と自己改善に関する線形仮定に挑戦する。
論文 参考訳(メタデータ) (2025-12-24T21:51:24Z) - IRepair: An Intent-Aware Approach to Repair Data-Driven Errors in Large Language Models [11.075423190298686]
大規模言語モデル(LLM)はデータセットのバイアスに弱いことで知られており、毒性などの問題を引き起こす。
本稿では,動的スライシングに基づく意図認識型LLM修復戦略であるIRepairを紹介する。
IRepairはエラーを43.6%効率よく修復する一方で,一般性能の46%低下を招いた。
論文 参考訳(メタデータ) (2025-02-10T22:07:02Z) - SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction [89.56181323849512]
SuperCorrectは、大きな教師モデルを使用して、より小さな学生モデルの推論と反映の両方を監督し、修正する新しい2段階のフレームワークである。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z) - Is Self-Repair a Silver Bullet for Code Generation? [68.02601393906083]
大規模な言語モデルは、コード生成において顕著な適性を示しているが、それでも複雑なタスクを実行するのに苦労している。
自己修復(Self-repair) — モデルが自身のコードをデバッグし、修復する — は、最近、パフォーマンスを向上する一般的な方法になっている。
我々は,Code Llama, GPT-3.5, GPT-4によるHumanEvalとAPPSの自己修復能力について分析した。
論文 参考訳(メタデータ) (2023-06-16T15:13:17Z) - The False Promise of Imitating Proprietary LLMs [158.65692029352584]
より弱い言語モデルを安価に改善するための新しい方法は、より強力なモデルからの出力に対してそれを微調整することである。
このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの機能を安価に模倣することを目指している。
まず、様々なベースモデルサイズを用いてChatGPTを模倣する一連のLMを微調整する。
次に、群衆レーダと標準NLPベンチマークを用いてモデルを評価する。
論文 参考訳(メタデータ) (2023-05-25T05:00:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。