Fugu-MT 論文翻訳(概要): Self-Correcting Code Generation Using Small Language Models

論文の概要: Self-Correcting Code Generation Using Small Language Models

arxiv url: http://arxiv.org/abs/2505.23060v1
Date: Thu, 29 May 2025 04:04:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:07.667264
Title: Self-Correcting Code Generation Using Small Language Models
Title（参考訳）: 小言語モデルを用いた自己修正コード生成
Authors: Jeonghun Cho, Deokhyung Kang, Hyounghun Kim, Gary Geunbae Lee,
Abstract要約: 自己補正は、言語モデルが連続的な改善を通じて出力を修正および改善できるようにすることで、コード生成の可能性を実証している。マルチターンコード修正のための小型言語モデルの能力向上を目的としたアプローチであるCoCoSを紹介する。 1Bスケールのモデルでは、CoCoSはMBPPで35.8%、HumanEvalで27.7%の改善を実現している。
参考スコア（独自算出の注目度）: 11.4397549365277
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Self-correction has demonstrated potential in code generation by allowing language models to revise and improve their outputs through successive refinement. Recent studies have explored prompting-based strategies that incorporate verification or feedback loops using proprietary models, as well as training-based methods that leverage their strong reasoning capabilities. However, whether smaller models possess the capacity to effectively guide their outputs through self-reflection remains unexplored. Our findings reveal that smaller models struggle to exhibit reflective revision behavior across both self-correction paradigms. In response, we introduce CoCoS, an approach designed to enhance the ability of small language models for multi-turn code correction. Specifically, we propose an online reinforcement learning objective that trains the model to confidently maintain correct outputs while progressively correcting incorrect outputs as turns proceed. Our approach features an accumulated reward function that aggregates rewards across the entire trajectory and a fine-grained reward better suited to multi-turn correction scenarios. This facilitates the model in enhancing initial response quality while achieving substantial improvements through self-correction. With 1B-scale models, CoCoS achieves improvements of 35.8% on the MBPP and 27.7% on HumanEval compared to the baselines.
Abstract（参考訳）: 自己補正は、言語モデルが連続的な改善を通じて出力を修正および改善できるようにすることで、コード生成の可能性を実証している。近年、プロプライエタリなモデルを用いた検証やフィードバックループを取り入れたプロンプトベースの戦略や、強力な推論能力を活用したトレーニングベースの手法が研究されている。しかし、より小さなモデルが自己回帰を通して出力を効果的に導く能力を持っているかどうかは未解明のままである。以上の結果から,より小さなモデルでは,自己補正パラダイム間の反射的リフレクションの挙動を示すのが困難であることが判明した。これに対し,マルチターンコード修正のための小型言語モデルの能力向上を目的としたアプローチであるCoCoSを導入する。具体的には,オンライン強化学習の目標として,不正確な出力を段階的に補正しながら,正しい出力を確実に維持するようにモデルを訓練する。提案手法は,全軌道上の報酬を集約する累積報酬関数と,マルチターン補正シナリオに適した細粒度報酬関数を特徴とする。これにより、自己補正による大幅な改善を図りながら、初期応答品質を向上させるモデルが容易になる。 1Bスケールのモデルでは、CoCoSはMBPPで35.8%、HumanEvalで27.7%の改善を実現している。

関連論文リスト

Boosting LLM Reasoning via Spontaneous Self-Correction [43.4980625253775]
数学推論を改善するためのアプローチの1つは自己補正である。既存の自己補正アプローチは、修正を独立したポストジェネレーションとして扱う。本研究では,LLMが単一推論パスでインターリーブされた解と検証を生成できる自己補正手法であるSPOCを提案する。
論文参考訳（メタデータ） (2025-06-07T21:23:00Z)
Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning [0.9016229944691868]
本研究では,自己回帰学習と強化学習による大規模言語モデルの性能向上手法について検討する。モデルに誤った回答をしたとき、より優れた自己回帰を生成するためのインセンティブを与えることで、複雑な検証可能なタスクを解くモデルの能力が向上できることを実証する。
論文参考訳（メタデータ） (2025-05-30T15:49:42Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Teaching Language Models to Critique via Reinforcement Learning [59.36253627145115]
我々は、textttCTRL$でトレーニングされた批評家が、パスレートを大幅に向上し、ベースモデルとより強力なジェネレータモデルの両方でエラーを軽減することを示した。また、これらの批判モデルが正確な生成報酬モデルとして機能し、反復的批評・修正によるテストタイムスケーリングを可能にすることを示す。
論文参考訳（メタデータ） (2025-02-05T02:18:46Z)
Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。 SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文参考訳（メタデータ） (2024-12-02T20:24:17Z)
Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。 SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文参考訳（メタデータ） (2024-09-19T17:16:21Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。