論文の概要: CodeReasoner: Enhancing the Code Reasoning Ability with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.17548v1
- Date: Wed, 23 Jul 2025 14:26:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:15.044681
- Title: CodeReasoner: Enhancing the Code Reasoning Ability with Reinforcement Learning
- Title(参考訳): CodeReasoner: 強化学習によるコード推論能力の強化
- Authors: Lingxiao Tang, He Ye, Zhongxin Liu, Xiaoxue Ren, Lingfeng Bao,
- Abstract要約: コード推論は、コードドメインにおける大きな言語モデル(LLM)の基本的な機能である。
それまでのアプローチは、主にコード推論タスクのパフォーマンスを改善するために教師付き微調整に依存していた。
これはトレーニングデータの低品質と教師付き微調整の制限という2つの中核的な問題によるものです。
データセット構築と2段階のトレーニングプロセスの両方にまたがるフレームワークであるCodeReasonerを提案する。
- 参考スコア(独自算出の注目度): 8.197518276987989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code reasoning is a fundamental capability for large language models (LLMs) in the code domain. It involves understanding and predicting a program's execution behavior, such as determining the output for a given input or whether a specific statement will be executed. This capability is essential for downstream tasks like debugging, code generation, and program repair. Prior approaches mainly rely on supervised fine-tuning to improve performance in code reasoning tasks. However, they often show limited gains and fail to generalize across diverse scenarios. We argue this is due to two core issues: the low quality of training data and the limitations of supervised fine-tuning, which struggles to teach general reasoning skills. To address these challenges, we propose CodeReasoner, a framework that spans both dataset construction and a two-stage training process. First, we introduce a method to construct datasets that focus on the core execution logic of Python programs. Next, we apply instruction tuning to inject execution-specific knowledge distilled from a powerful teacher model. We then enhance reasoning and generalization through GRPO reinforcement learning on top of the fine-tuned model. Experiments on three widely-used code reasoning benchmarks show that CodeReasoner improves performance by 27.1% to 40.2% over prior methods using a 7B model. Notably, the 7B model matches GPT-4o on key tasks like input/output and coverage prediction. When scaled to 14B, CodeReasoner outperforms GPT-4o across all benchmarks. Ablation studies confirm the effectiveness of each training stage and highlight the importance of reasoning chains.
- Abstract(参考訳): コード推論は、コードドメインにおける大きな言語モデル(LLM)の基本的な機能である。
与えられた入力の出力を決定することや、特定のステートメントが実行されるかどうかなど、プログラムの実行動作を理解して予測する。
この機能は、デバッグ、コード生成、プログラムの修復といった下流タスクに不可欠である。
それまでのアプローチは、主にコード推論タスクのパフォーマンスを改善するために教師付き微調整に依存していた。
しかし、それらはしばしば限られた利益を示し、様々なシナリオにまたがる一般化に失敗する。
これは、トレーニングデータの質の低さと教師付き微調整の限界という、一般的な推論スキルを教えるのに苦労している2つの問題に起因する、と我々は主張する。
これらの課題に対処するために、データセットの構築と2段階のトレーニングプロセスの両方にまたがるフレームワークであるCodeReasonerを提案する。
まず,Pythonプログラムのコア実行ロジックに着目したデータセット構築手法を提案する。
次に,強力な教師モデルから抽出した実行特化知識をインジェクションするインストラクションチューニングを適用する。
次に,微調整モデル上でのGRPO強化学習による推論と一般化の促進を行う。
広く使われている3つのコード推論ベンチマークの実験では、CodeReasonerは7Bモデルを使った以前の手法よりも27.1%向上し40.2%向上した。
7Bモデルは入力/出力やカバレッジ予測といった重要なタスクでGPT-4oと一致している。
14Bにスケールすると、CodeReasonerはすべてのベンチマークでGPT-4oを上回っている。
アブレーション研究は、各訓練段階の有効性を確認し、推論連鎖の重要性を強調する。
関連論文リスト
- OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique [59.18475981916166]
OpenCodeReasoning-IIは、250万の質問解決批判三部作からなるデータセットである(約35万のユニークなプログラミング質問)。
本研究では,2段階の教師付き微調整戦略を採用する。第1段階はコード生成のための微調整に焦点を当て,第2段階はコード生成と批判の両方のためのモデルの共同トレーニングを行う。特に,コード生成と批判モデルの統合は,競争力のある符号化性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-07-11T23:35:54Z) - Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning [14.208804782749793]
R1-Code-Interpreterは,マルチターン制御微調整(SFT)と強化学習(RL)によって訓練されたテキストのみの大規模言語モデル(LLM)の拡張である。
R1-Code-Interpreterはステップバイステップ推論中に複数のコードクエリを自律的に生成する。
従来のRLの狭いドメインでの作業とは異なり、タスクの多様性と高価なコード実行のために、コードインタープリタのトレーニングがかなり難しいことが分かりました。
論文 参考訳(メタデータ) (2025-05-27T18:47:33Z) - Which Data Attributes Stimulate Math and Code Reasoning? An Investigation via Influence Functions [8.540135660509058]
大規模言語モデル(LLM)は数学やコーディングにおいて顕著な推論能力を示している。
影響関数を利用して、LLMの推論能力を数学やコーディングに当てはめ、個々のトレーニング例、シーケンス、トークンに当てはめます。
高い微分率の数学の例は、算術とコード推論の両方を改善するが、低微分率のコードタスクは、コードの推論に最も効果的に寄与する。
論文 参考訳(メタデータ) (2025-05-26T13:15:26Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。
我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。
私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文 参考訳(メタデータ) (2025-05-16T16:59:14Z) - To Code, or Not To Code? Exploring Impact of Code in Pre-training [13.336902036852115]
一般性能に対するコードデータの影響を系統的に検討する。
コーディングタスクをはるかに超越した一般化のための重要なビルディングブロックがコードであることに気付きました。
私たちの研究は、事前トレーニング中のコード品質とコード保存への投資がポジティブな影響を与えることを示唆しています。
論文 参考訳(メタデータ) (2024-08-20T14:58:13Z) - Is Next Token Prediction Sufficient for GPT? Exploration on Code Logic Comprehension [18.919972400933393]
我々は、先進的な事前訓練タスク「Next Token Prediction+」を提案する。
この事前トレーニングに続いて、コードドメイン事前トレーニングモデルであるCode LlamaとStarCoderの両方が、論理的に等価なコード選択タスクとコード補完タスクに大幅に改善されている。
論文 参考訳(メタデータ) (2024-04-13T03:11:07Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - Towards Efficient Fine-tuning of Pre-trained Code Models: An
Experimental Study and Beyond [52.656743602538825]
微調整された事前訓練されたコードモデルは、大きな計算コストを発生させる。
我々は、レイヤーワイドで事前訓練された表現と、微調整中に符号化されたコード知識に何が起こるのかを実験的に検討する。
本稿では,レイヤ凍結により事前学習したコードモデルを効率的に微調整するTellyを提案する。
論文 参考訳(メタデータ) (2023-04-11T13:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。