論文の概要: ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.05863v1
- Date: Fri, 06 Mar 2026 03:38:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.984587
- Title: ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning
- Title(参考訳): ReflexiCoder: 強化学習による大規模言語モデルによる生成コードと自己補正の指導
- Authors: Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim,
- Abstract要約: 既存の反復的な改善戦略は、外部のオラクル、実行フィードバック、あるいは計算に高価なプロンプト応答サイクルに依存している。
構造的推論軌道を内在化する新しい強化学習(RL)フレームワークであるReflexiCoderを提案する。
私たちのフレームワークはベースモデルよりもトークン効率がかなり高く、推論時の計算オーバーヘッドを約40%削減します。
- 参考スコア(独自算出の注目度): 17.115542346570972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) have revolutionized code generation, standard "System 1" approaches, generating solutions in a single forward pass, often hit a performance ceiling when faced with complex algorithmic tasks. Existing iterative refinement strategies attempt to bridge this gap at inference time, yet they predominantly rely on external oracles, execution feedback, or computationally expensive prompt-response cycles. In this work, we propose ReflexiCoder, a novel reinforcement learning (RL) framework that internalizes the structured reasoning trajectory, encompassing initial generation, bug and optimization aware reflection, and self-correction, directly into the model's weights. Unlike prior methods, ReflexiCoder shifts the paradigm from external-dependent refinement to an intrinsic, fully autonomous self-reflection and self-correction capabilities at inference time. We utilize an RL-zero training paradigm with granular reward functions to optimize the entire reflection-correction trajectory, teaching the model how to debug without reliance on ground-truth feedback or execution engines at inference time. Extensive experiments across seven benchmarks demonstrate that our ReflexiCoder-8B establishes a new state-of-the-art (SOTA) among leading open-source models in the 1.5B-14B range, achieving 94.51% (87.20%) on HumanEval (Plus), 81.80% (78.57%) on MBPP (Plus), 35.00% on BigCodeBench, 52.21% on LiveCodeBench, and 37.34% on CodeForces in a single-attempt setting, rivaling or surpassing proprietary models like GPT-5.1. Notably, our framework is significantly more token-efficient than base models, reducing inference-time compute overhead by approximately 40% through disciplined, high-speed reasoning and reflection patterns. Source code is available at https://github.com/juyongjiang/ReflexiCoder.
- Abstract(参考訳): LLM(Large Language Models)はコード生成に革命をもたらしたが、標準的な"System 1"アプローチでは、単一のフォワードパスでソリューションを生成し、複雑なアルゴリズムタスクに直面した場合、しばしばパフォーマンスの天井に達する。
既存の反復的な洗練戦略は、推論時にこのギャップを埋めようとするが、それらは主に外部のオラクル、実行フィードバック、計算に高価な応答サイクルに依存している。
本研究では,構造的推論軌道を内在化する新しい強化学習(RL)フレームワークであるReflexiCoderを提案する。
従来の方法とは異なり、ReflexiCoderは、パラダイムを外部依存の洗練から、推論時に固有の完全に自律的な自己反射と自己補正能力に移行する。
提案手法では,RL-ゼロの学習パラダイムを用いて反射補正軌道全体を最適化し,提案モデルに予測時の地中フィードバックや実行エンジンに頼らずにデバッグ方法を教える。
7つのベンチマークにわたる大規模な実験により、私たちのReflexiCoder-8Bは1.5B-14B範囲で主要なオープンソースモデルのうち、新しい最先端(SOTA)を確立し、HumanEval(Plus)で94.51%(87.20%)、MBPP(Plus)で81.80%(78.57%)、BigCodeBenchで35.00%、LiveCodeBenchで52.21%、GPT-5.1のようなプロプライエタリなモデルで37.34%をCodeForcesで達成した。
特に、我々のフレームワークはベースモデルよりもトークン効率がかなり高く、規律付き高速推論およびリフレクションパターンにより、推論時の計算オーバーヘッドを約40%削減している。
ソースコードはhttps://github.com/juyongjiang/ReflexiCoder.comで入手できる。
関連論文リスト
- Teaching Large Reasoning Models Effective Reflection [62.73646680747003]
大規模推論モデル(LRM)は、最近、複雑な推論タスクにおいて印象的なパフォーマンスを示している。
しかし、すべてのリフレクションが有益であるとは限らない。
まず,自己批判のみを用いてモデルの反射的推論能力を高める訓練フレームワークである自己批判ファインチューニング(SCFT)を提案する。
論文 参考訳(メタデータ) (2026-01-19T04:51:53Z) - Efficient Reasoning for Large Reasoning Language Models via Certainty-Guided Reflection Suppression [30.653381666162275]
Certainty-Guided Reflection Suppression (CGRS) は、Large Reasoning Language Models (LRLM) における過度な思考を緩和する新しい方法である。
CGRSは、モデルが現在の応答に高い信頼を示すときに、モデルが生成するリフレクショントリガを動的に抑制することで機能する。
我々のアプローチはモデルに依存しず、再トレーニングやアーキテクチャの変更は必要とせず、既存の自己回帰生成パイプラインとシームレスに統合できる。
論文 参考訳(メタデータ) (2025-08-07T12:38:22Z) - Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - Aligning Frozen LLMs by Reinforcement Learning: An Iterative Reweight-then-Optimize Approach [65.6966065843227]
Iterative Reweight-then-IROは、凍結ベースモデルのRLスタイルアライメントを実行するフレームワークである。
テスト時には、値関数を使用して、検索ベースの最適化プロセスを介してベースモデル生成をガイドする。
特に、ユーザは、OpenAIの強化微調整(RFT)と同様、自身のデータセットにモデルをアライメントするためにIROを適用することができる。
論文 参考訳(メタデータ) (2025-06-21T21:49:02Z) - Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning [48.66688117533318]
本稿では,専用の報酬設計を備えた新しい強化学習フレームワークCUREを提案する。
CUREは、その相互作用の結果に基づいて、コーディングと単体テスト生成機能を共進化させる。
我々のモデルは,ベースモデルに基づく強化学習に有効な報奨モデルとして機能することを発見した。
論文 参考訳(メタデータ) (2025-06-03T17:58:42Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。