論文の概要: IterPref: Focal Preference Learning for Code Generation via Iterative Debugging
- arxiv url: http://arxiv.org/abs/2503.02783v2
- Date: Mon, 10 Mar 2025 18:08:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:41:07.368538
- Title: IterPref: Focal Preference Learning for Code Generation via Iterative Debugging
- Title(参考訳): IterPref: 反復デバッグによるコード生成のためのFocal Preference Learning
- Authors: Jie Wu, Haoling Li, Xin Zhang, Jianwen Luo, Yangyu Huang, Ruihang Chu, Yujiu Yang, Scarlett Li,
- Abstract要約: We propose IterPref, a new preference alignment framework for Code LLMs。
IterPrefは明示的にエラー領域を特定し、対応するトークンを調整されたDPOアルゴリズムで調整する。
IterPrefはコード生成において大幅なパフォーマンス向上を実現し、BigCodeBenchのような課題を改善する。
- 参考スコア(独自算出の注目度): 28.020886216989872
- License:
- Abstract: Preference learning enhances Code LLMs beyond supervised fine-tuning by leveraging relative quality comparisons. Existing methods construct preference pairs from candidates based on test case success, treating the higher pass rate sample as positive and the lower as negative. However, this approach does not pinpoint specific errors in the code, which prevents the model from learning more informative error correction patterns, as aligning failing code as a whole lacks the granularity needed to capture meaningful error-resolution relationships. To address these issues, we propose IterPref, a new preference alignment framework that mimics human iterative debugging to refine Code LLMs. IterPref explicitly locates error regions and aligns the corresponding tokens via a tailored DPO algorithm. To generate informative pairs, we introduce the CodeFlow dataset, where samples are iteratively refined until passing tests, with modifications capturing error corrections. Extensive experiments show that a diverse suite of Code LLMs equipped with IterPref achieves significant performance gains in code generation and improves on challenging tasks like BigCodeBench. In-depth analysis reveals that IterPref yields fewer errors. Our code and data will be made publicaly available.
- Abstract(参考訳): 優先度学習は、相対的な品質比較を活用することにより、教師付き微調整以上のコードLLMを強化する。
既存の方法は、テストケースの成功に基づいて候補から選好ペアを構築し、より高いパスレートサンプルを正、低いものを負として扱う。
しかし、このアプローチは、コード内の特定のエラーを特定せず、モデルがより情報的なエラー訂正パターンを学ぶのを防ぐ。
これらの問題に対処するために、コードLLMを洗練させるために、人間の反復デバッグを模倣する新しいリテラルアライメントフレームワークであるIterPrefを提案する。
IterPrefは明示的にエラー領域を特定し、対応するトークンを調整されたDPOアルゴリズムで調整する。
情報的ペアを生成するために,テストに合格するまでサンプルを反復的に精査するCodeFlowデータセットを導入する。
IterPrefを備えた多種多様なコードLLMスイートは、コード生成において大幅なパフォーマンス向上を実現し、BigCodeBenchのような課題の改善を実現している。
詳細な分析によると、IterPrefはエラーが少ない。
私たちのコードとデータは公開されます。
関連論文リスト
- ROCODE: Integrating Backtracking Mechanism and Program Analysis in Large Language Models for Code Generation [31.363781211927947]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
LLMはコード生成時にエラーの蓄積に影響を受けやすい。
コード生成のためのLLMにバックトラック機構とプログラム解析を統合したROCODEを提案する。
論文 参考訳(メタデータ) (2024-11-11T16:39:13Z) - Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Insights from Benchmarking Frontier Language Models on Web App Code Generation [1.7268889851975326]
本稿では,WebApp1Kベンチマークによる16のフロンティア大言語モデル(LLM)の評価から得られた知見について述べる。
結果は、全てのモデルが類似した知識を持っているが、それらの性能は、それらが犯した誤りの頻度によって区別されることを示している。
論文 参考訳(メタデータ) (2024-09-08T18:24:26Z) - GLARE: Low Light Image Enhancement via Generative Latent Feature based Codebook Retrieval [80.96706764868898]
我々は、GLARE(Generative LAtent Feature based codebook Retrieval)を介して、新しい低照度画像強調(LLIE)ネットワークを提案する。
Invertible Latent Normalizing Flow (I-LNF) モジュールを開発し、LL特徴分布をNL潜在表現に整合させ、コードブック内の正しいコード検索を保証する。
さまざまなベンチマークデータセットと実世界のデータに対するGLAREの優れたパフォーマンスを確認する実験。
論文 参考訳(メタデータ) (2024-07-17T09:40:15Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - SEED: Customize Large Language Models with Sample-Efficient Adaptation for Code Generation [35.88318116340547]
コード生成のための誤り駆動学習を用いたサンプル効率適応のためのSEEDという新しい適応手法を提案する。
複数のコード生成ベンチマークでPass@1の平均相対改善率は54.7%である。
論文 参考訳(メタデータ) (2024-02-29T16:09:02Z) - Learning to Check: Unleashing Potentials for Self-Correction in Large Language Models [5.463333911506443]
我々は,タスクチェックのためのトレーニングデータを構築することで,大規模言語モデル(LLM)の自己チェック能力を向上させることを目指している。
ステップCoTチェック(Step CoT Check)と呼ばれる特殊なチェックフォーマットを提案する。
実験により、"Step CoT Check"フォーマットによる微調整により、LCMの自己チェックと自己補正能力が大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-02-20T14:23:23Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Fixing Large Language Models' Specification Misunderstanding for Better Code Generation [13.494822086550604]
muFiXは、大きな言語モデル(LLM)のコード生成性能を改善する新しいプロンプト技術である。
まず、テストケース分析を利用して仕様の理解を得、自己改善プロセスを可能にする。
muFiXはさらに、提供された理解と実際の理解の間のギャップを減らす方向に向けた仕様理解を修正している。
論文 参考訳(メタデータ) (2023-09-28T02:58:07Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。