論文の概要: Self-Correcting Code Generation Using Small Language Models
- arxiv url: http://arxiv.org/abs/2505.23060v1
- Date: Thu, 29 May 2025 04:04:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.667264
- Title: Self-Correcting Code Generation Using Small Language Models
- Title(参考訳): 小言語モデルを用いた自己修正コード生成
- Authors: Jeonghun Cho, Deokhyung Kang, Hyounghun Kim, Gary Geunbae Lee,
- Abstract要約: 自己補正は、言語モデルが連続的な改善を通じて出力を修正および改善できるようにすることで、コード生成の可能性を実証している。
マルチターンコード修正のための小型言語モデルの能力向上を目的としたアプローチであるCoCoSを紹介する。
1Bスケールのモデルでは、CoCoSはMBPPで35.8%、HumanEvalで27.7%の改善を実現している。
- 参考スコア(独自算出の注目度): 11.4397549365277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-correction has demonstrated potential in code generation by allowing language models to revise and improve their outputs through successive refinement. Recent studies have explored prompting-based strategies that incorporate verification or feedback loops using proprietary models, as well as training-based methods that leverage their strong reasoning capabilities. However, whether smaller models possess the capacity to effectively guide their outputs through self-reflection remains unexplored. Our findings reveal that smaller models struggle to exhibit reflective revision behavior across both self-correction paradigms. In response, we introduce CoCoS, an approach designed to enhance the ability of small language models for multi-turn code correction. Specifically, we propose an online reinforcement learning objective that trains the model to confidently maintain correct outputs while progressively correcting incorrect outputs as turns proceed. Our approach features an accumulated reward function that aggregates rewards across the entire trajectory and a fine-grained reward better suited to multi-turn correction scenarios. This facilitates the model in enhancing initial response quality while achieving substantial improvements through self-correction. With 1B-scale models, CoCoS achieves improvements of 35.8% on the MBPP and 27.7% on HumanEval compared to the baselines.
- Abstract(参考訳): 自己補正は、言語モデルが連続的な改善を通じて出力を修正および改善できるようにすることで、コード生成の可能性を実証している。
近年、プロプライエタリなモデルを用いた検証やフィードバックループを取り入れたプロンプトベースの戦略や、強力な推論能力を活用したトレーニングベースの手法が研究されている。
しかし、より小さなモデルが自己回帰を通して出力を効果的に導く能力を持っているかどうかは未解明のままである。
以上の結果から,より小さなモデルでは,自己補正パラダイム間の反射的リフレクションの挙動を示すのが困難であることが判明した。
これに対し,マルチターンコード修正のための小型言語モデルの能力向上を目的としたアプローチであるCoCoSを導入する。
具体的には,オンライン強化学習の目標として,不正確な出力を段階的に補正しながら,正しい出力を確実に維持するようにモデルを訓練する。
提案手法は,全軌道上の報酬を集約する累積報酬関数と,マルチターン補正シナリオに適した細粒度報酬関数を特徴とする。
これにより、自己補正による大幅な改善を図りながら、初期応答品質を向上させるモデルが容易になる。
1Bスケールのモデルでは、CoCoSはMBPPで35.8%、HumanEvalで27.7%の改善を実現している。
関連論文リスト
- Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。