Fugu-MT 論文翻訳(概要): CRPE: Expanding The Reasoning Capability of Large Language Model for Code Generation

論文の概要: CRPE: Expanding The Reasoning Capability of Large Language Model for Code Generation

arxiv url: http://arxiv.org/abs/2505.10594v1
Date: Thu, 15 May 2025 08:13:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-19 14:36:13.270727
Title: CRPE: Expanding The Reasoning Capability of Large Language Model for Code Generation
Title（参考訳）: CRPE:コード生成のための大規模言語モデルの推論能力の拡大
Authors: Ningxin Gui, Qianghuai Jia, Feijun Jiang, Yuling Jiao, dechun wang, Jerry Zhijian Yang,
Abstract要約: CRPE(Code Reasoning Process Enhancer)は、データ合成とモデルトレーニングのためのフレームワークである。我々は,コード生成タスクの大幅な改善を示す拡張COTコーダを開発した。 Qwen2.5-Coder-32B-BaseをベースとしたCOT-Coder-32B-StepDPOは,パス@1精度35.08で優れた性能を示し,ベンチマークではGPT4Oを上回った。
参考スコア（独自算出の注目度）: 5.63821063617385
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce CRPE (Code Reasoning Process Enhancer), an innovative three-stage framework for data synthesis and model training that advances the development of sophisticated code reasoning capabilities in large language models (LLMs). Building upon existing system-1 models, CRPE addresses the fundamental challenge of enhancing LLMs' analytical and logical processing in code generation tasks. Our framework presents a methodologically rigorous yet implementable approach to cultivating advanced code reasoning abilities in language models. Through the implementation of CRPE, we successfully develop an enhanced COT-Coder that demonstrates marked improvements in code generation tasks. Evaluation results on LiveCodeBench (20240701-20240901) demonstrate that our COT-Coder-7B-StepDPO, derived from Qwen2.5-Coder-7B-Base, with a pass@1 accuracy of 21.88, exceeds all models with similar or even larger sizes. Furthermore, our COT-Coder-32B-StepDPO, based on Qwen2.5-Coder-32B-Base, exhibits superior performance with a pass@1 accuracy of 35.08, outperforming GPT4O on the benchmark. Overall, CRPE represents a comprehensive, open-source method that encompasses the complete pipeline from instruction data acquisition through expert code reasoning data synthesis, culminating in an autonomous reasoning enhancement mechanism.
Abstract（参考訳）: CRPE(Code Reasoning Process Enhancer, Code Reasoning Process Enhancer)は,大規模言語モデル(LLM)における高度なコード推論機能の開発を促進する,データ合成とモデルトレーニングのための革新的な3段階フレームワークである。 CRPEは既存のSystem-1モデルに基づいており、コード生成タスクにおけるLLMの分析的および論理的処理を強化するという根本的な課題に対処している。本フレームワークは,言語モデルにおける高度なコード推論能力を育成するための,方法論的に厳格で実装可能なアプローチを提案する。 CRPEの実装を通じて,コード生成タスクの大幅な改善を示す拡張COTコーダの開発に成功した。 LiveCodeBench (20240701-20240901)の評価結果は、Qwen2.5-Coder-7B-Baseから派生したCOT-Coder-7B-StepDPOが、21.88のパス@1精度で、類似またはそれ以上の大きさの全てのモデルを上回ることを示した。さらに、Qwen2.5-Coder-32B-BaseをベースとしたCOT-Coder-32B-StepDPOは、パス@1精度35.08で優れた性能を示し、ベンチマークではGPT4Oを上回った。 CRPEは全体として、命令データ取得からエキスパートコード推論データ合成を通じて完全なパイプラインを包含する包括的なオープンソース手法であり、自律的推論強化機構に終止符を打つ。

関連論文リスト

OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique [59.18475981916166]
OpenCodeReasoning-IIは、250万の質問解決批判三部作からなるデータセットである(約35万のユニークなプログラミング質問)。本研究では,2段階の教師付き微調整戦略を採用する。第1段階はコード生成のための微調整に焦点を当て,第2段階はコード生成と批判の両方のためのモデルの共同トレーニングを行う。特に,コード生成と批判モデルの統合は,競争力のある符号化性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-07-11T23:35:54Z)
Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。 TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文参考訳（メタデータ） (2025-07-10T07:34:05Z)
KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding [49.56049319037421]
KodCodeは、高品質で検証可能なトレーニングデータを取得するという永続的な課題に対処する、合成データセットである。自己検証手順によって体系的に検証される質問解決テスト三つ子を含む。このパイプラインは大規模で堅牢で多様なコーディングデータセットを生成する。
論文参考訳（メタデータ） (2025-03-04T19:17:36Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文参考訳（メタデータ） (2024-11-07T00:09:54Z)
CodingTeachLLM: Empowering LLM's Coding Ability via AST Prior Knowledge [0.0]
我々は,コーディング学習用に設計された大規模言語モデル(LLM)であるCodingTeachLLMを紹介する。本モデルは,学習知識の構造的分解と漸進的指導によるアウトプットを実現する。当社のモデルは,オープンソースモデルと比較して,コード能力の最先端性も達成している。
論文参考訳（メタデータ） (2024-03-13T05:38:39Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Automatic Unit Test Data Generation and Actor-Critic Reinforcement Learning for Code Synthesis [16.88062487980405]
本稿では,関数シグネチャと関連する単体テストからなるデータを自動的に取得する手法を提案する。自動生成したトレーニングデータと組み合わせることで,事前学習された言語モデルの性能が向上することを示す。
論文参考訳（メタデータ） (2023-10-20T17:13:16Z)
Execution-based Code Generation using Deep Reinforcement Learning [8.085533911328577]
PPOCoderは、事前訓練されたPLモデルとプロキシポリシー最適化を組み合わせた、コード生成のための新しいフレームワークである。 PPOCoderは、外部コード固有の知識をモデル最適化プロセスにシームレスに統合する。 PPOCoderはタスクに依存しない、モデルに依存しないフレームワークで、さまざまなコード生成タスクやPLで使用できます。
論文参考訳（メタデータ） (2023-01-31T18:02:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。