Fugu-MT 論文翻訳(概要): RefineCoder: Iterative Improving of Large Language Models via Adaptive Critique Refinement for Code Generation

論文の概要: RefineCoder: Iterative Improving of Large Language Models via Adaptive Critique Refinement for Code Generation

arxiv url: http://arxiv.org/abs/2502.09183v1
Date: Thu, 13 Feb 2025 11:17:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-14 20:05:35.214795
Title: RefineCoder: Iterative Improving of Large Language Models via Adaptive Critique Refinement for Code Generation
Title（参考訳）: RefineCoder: コード生成のための適応的批評リファインメントによる大規模言語モデルの反復的改善
Authors: Changzhi Zhou, Xinyu Zhang, Dandan Song, Xiancai Chen, Wanli Gu, Huipeng Ma, Yuhang Tian, Mengdi Zhang, Linmei Hu,
Abstract要約: 本稿では,自己生成コードと外部批判によってモデルを洗練できる適応的批評精細化(ACR)を提案する。 ACRは、コード応答の品質を評価するためのLCM-as-a-Judgeを備えた複合スコアシステムを含む。我々は、ACRを反復的に適用し、複数のコード生成ベンチマークで連続的な性能改善を実現するRefineCoderシリーズを開発した。
参考スコア（独自算出の注目度）: 13.75248879205993
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Code generation has attracted increasing attention with the rise of Large Language Models (LLMs). Many studies have developed powerful code LLMs by synthesizing code-related instruction data and applying supervised fine-tuning. However, these methods are limited by teacher model distillation and ignore the potential of iterative refinement by self-generated code. In this paper, we propose Adaptive Critique Refinement (ACR), which enables the model to refine itself by self-generated code and external critique, rather than directly imitating the code responses of the teacher model. Concretely, ACR includes a composite scoring system with LLM-as-a-Judge to evaluate the quality of code responses and a selective critique strategy with LLM-as-a-Critic to critique self-generated low-quality code responses. We develop the RefineCoder series by iteratively applying ACR, achieving continuous performance improvement on multiple code generation benchmarks. Compared to the baselines of the same size, our proposed RefineCoder series can achieve comparable or even superior performance using less data.
Abstract（参考訳）: コード生成は、LLM(Large Language Models)の台頭とともに、注目を集めている。多くの研究は、コード関連命令データを合成し、教師付き微調整を適用することで、強力なコードLLMを開発した。しかし、これらの方法は教師モデルの蒸留によって制限され、自己生成コードによる反復的精錬の可能性を無視している。本稿では,教師モデルのコード応答を直接模倣するのではなく,自己生成コードと外部批判によってモデルを洗練することができる適応的批評精細化(ACR)を提案する。具体的には、LLM-as-a-Judgeを用いた合成スコアシステムと、LLM-as-a-Criticによる選択的批判戦略と、自己生成した低品質のコード応答を評価する。我々は、ACRを反復的に適用し、複数のコード生成ベンチマークで連続的な性能改善を実現するRefineCoderシリーズを開発した。同じサイズのベースラインと比較して、提案したRefineCoderシリーズは、少ないデータを使用して、同等またはそれ以上のパフォーマンスを達成できます。

関連論文リスト

Integrating Symbolic Execution into the Fine-Tuning of Code-Generating LLMs [1.8838588087156363]
本稿では,コード生成型大規模言語モデル(LLM)の微調整について検討する。我々は,シンボル実行手法の助けを借りて,報酬モデルのトレーニングデータを強化する。このデータセットを微調整した報奨モデルでは、ベースラインであるCodeRLよりも大幅に改善されていることが示されています。
論文参考訳（メタデータ） (2025-04-21T16:29:07Z)
Pragmatic Reasoning improves LLM Code Generation [35.78260347663757]
我々は,Rational Speech Act (RSA) フレームワーク上に構築された新しいコード候補付け機構であるCodeRSAを提案する。我々は、人気のあるコード生成データセット上で、最新のLarge Language Modelの1つを用いてCodeRSAを評価する。
論文参考訳（メタデータ） (2025-02-20T12:44:26Z)
Teaching Language Models to Critique via Reinforcement Learning [59.36253627145115]
我々は、textttCTRL$でトレーニングされた批評家が、パスレートを大幅に向上し、ベースモデルとより強力なジェネレータモデルの両方でエラーを軽減することを示した。また、これらの批判モデルが正確な生成報酬モデルとして機能し、反復的批評・修正によるテストタイムスケーリングを可能にすることを示す。
論文参考訳（メタデータ） (2025-02-05T02:18:46Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Automating Patch Set Generation from Code Review Comments Using Large Language Models [2.045040820541428]
5つの人気のあるLarge Language Model(LLM)にコードコンテキストを提供します。実世界のコードレビューコメントから提案したコード変更(パッチセット)を得る。生成したパッチセットを人為的なパッチセットの履歴データと比較することにより、各モデルの性能を慎重に評価する。
論文参考訳（メタデータ） (2024-04-10T02:46:08Z)
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。 InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文参考訳（メタデータ） (2024-03-11T02:06:30Z)
SEED: Customize Large Language Models with Sample-Efficient Adaptation for Code Generation [35.88318116340547]
コード生成のための誤り駆動学習を用いたサンプル効率適応のためのSEEDという新しい適応手法を提案する。複数のコード生成ベンチマークでPass@1の平均相対改善率は54.7%である。
論文参考訳（メタデータ） (2024-02-29T16:09:02Z)
DolphCoder: Echo-Locating Code Large Language Models with Diverse and Multi-Objective Instruction Tuning [36.78560777629329]
コード生成を自己評価する多種多様な命令モデル(DolphCoder)を導入する。多様な命令ターゲットを学習し、コード生成能力を高めるためにコード評価の目的を組み合わせる。本モデルは,HumanEvalおよびMBPPベンチマークにおいて優れた性能を示す。
論文参考訳（メタデータ） (2024-02-14T12:34:58Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
Coder Reviewer Reranking for Code Generation [56.80381384717]
本稿では,コード言語モデルから多様なプログラムを抽出し,モデル確率で再ランク付けする手法として,Coder-Reviewerの再ランク付けを提案する。実験の結果、Coder-Reviewerのリランクは、Coderモデルのみのリランクよりも一貫性と大幅な改善をもたらすことが示された。 Coder-Reviewerのリランクは、プロンプトによって実装が容易で、異なるプログラミング言語に一般化でき、既定のハイパーパラメータとうまく機能する。
論文参考訳（メタデータ） (2022-11-29T18:56:33Z)
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文参考訳（メタデータ） (2022-07-05T02:42:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。