論文の概要: AP2O: Correcting LLM-Generated Code Errors Type by Type Like Humans via Adaptive Progressive Preference Optimization
- arxiv url: http://arxiv.org/abs/2510.02393v1
- Date: Wed, 01 Oct 2025 03:17:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.076426
- Title: AP2O: Correcting LLM-Generated Code Errors Type by Type Like Humans via Adaptive Progressive Preference Optimization
- Title(参考訳): AP2O:Adaptive Progressive Preference Optimizationによるタイプライクな人によるLLM生成コードエラーの修正
- Authors: Jianqing Zhang, Wei Xia, Hande Dong, Qiang Lin, Jian Cao,
- Abstract要約: 本稿では,LLMを適応的かつ体系的にガイドし,コード生成のためのコードエラーを低減する手法であるAP2O-Coderを提案する。
広範な実験を通じて、私たちのAP2O-Coderは、好みの少ないデータを使用しながら、pass@kでコード生成性能を最大3%改善します。
- 参考スコア(独自算出の注目度): 14.132986699859131
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: LLMs' code generation capabilities have yielded substantial improvements in the effectiveness of programming tasks. However, LLM-generated code still suffers from compilation and runtime errors. Existing offline preference optimization methods primarily focus on enhancing LLMs' coding abilities using pass/fail signals in the preference data, overlooking the deep-level error types in the failed codes. To address this, we propose Adaptively Progressive Preference Optimization (AP2O) for coding (i.e., AP2O-Coder), a method that guides LLMs adaptively and methodically to reduce code errors for code generation. Specifically, we construct an error notebook from failed codes and progressively optimize the LLM to correct errors type by type. Furthermore, we adaptively replay error types to tailor to the LLM's changing weaknesses throughout the training process. Through extensive experiments on both code and general LLMs (Llama, Qwen, and DeepSeek series) with parameters ranging from 0.5B to 34B, our AP2O-Coder improves code generation performance by up to 3% in pass@k while using less preference data. Code: https://github.com/TsingZ0/AP2O
- Abstract(参考訳): LLMのコード生成能力は、プログラミングタスクの有効性を大幅に改善した。
しかし、LLMの生成したコードは依然としてコンパイルと実行時のエラーに悩まされている。
既存のオフライン優先最適化手法は、優先データ中のパス/フェイル信号を用いて、失敗するコードの深層エラータイプを見渡すことで、LLMの符号化能力の向上に重点を置いている。
そこで本研究では,LLMを適応的かつ方法論的に誘導し,コード生成におけるコードエラーを低減する手法である,符号化のための適応進行性優先最適化(AP2O)を提案する。
具体的には、故障したコードからエラーノートを作成し、LLMを段階的に最適化し、型別エラータイプを補正する。
さらに,学習過程を通じてLLMの弱さの変化に合わせて,エラータイプを適応的にリプレイする。
0.5Bから34Bまでのパラメータを持つコードと一般的なLLM(Llama、Qwen、DeepSeekシリーズ)の広範な実験を通じて、私たちのAP2O-Coderは、好みの少ないデータを使用しながら、pass@kでコード生成性能を最大3%改善します。
コード:https://github.com/TsingZ0/AP2O
関連論文リスト
- Teaching Your Models to Understand Code via Focal Preference Alignment [50.5876666815306]
既存の手法では、テストケースの成功率に基づいてn個の候補解が評価される。
このアプローチは、特定のエラーを特定するのではなく、失敗するコードブロック全体を整列するので、意味のあるエラーと訂正の関係を捉えるのに必要な粒度が欠けている。
我々は、人間の反復デバッグを模倣してコードLLMを洗練させる新しい優先順位調整フレームワークであるTarget-DPOを提案する。
論文 参考訳(メタデータ) (2025-03-04T16:56:34Z) - PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。
LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文 参考訳(メタデータ) (2024-11-18T06:22:38Z) - ROCODE: Integrating Backtracking Mechanism and Program Analysis in Large Language Models for Code Generation [31.363781211927947]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
LLMはコード生成時にエラーの蓄積に影響を受けやすい。
コード生成のためのLLMにバックトラック機構とプログラム解析を統合したROCODEを提案する。
論文 参考訳(メタデータ) (2024-11-11T16:39:13Z) - Fixing Function-Level Code Generation Errors for Foundation Large Language Models [6.137340149146578]
生成エラーに関する実証的研究を行い、その原因の分析を行い、19種類のエラー原因を導出する。
私たちの経験的分析では、これらの3つの原因が直接修正可能であることが示されています。
本稿では,この3種類のエラーを3段階のプロセスで処理するLlmFix法を提案する。
論文 参考訳(メタデータ) (2024-09-01T09:40:15Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。