論文の概要: SLMFix: Leveraging Small Language Models for Error Fixing with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.19422v1
- Date: Mon, 24 Nov 2025 18:56:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.377364
- Title: SLMFix: Leveraging Small Language Models for Error Fixing with Reinforcement Learning
- Title(参考訳): SLMFix: 強化学習による誤り修正のための小さな言語モデルを活用する
- Authors: David Jiahao Fu, Aryan Gupta, Aaron Councilman, David Grove, Yu-Xiong Wang, Vikram Adve,
- Abstract要約: 大規模言語モデル(LLM)は、構文的エラーを含むプログラムを生成し、与えられたタスクを完了できない。
本研究では、強化学習(RL)技術を用いて微調整された小言語モデル(SLM)を利用する新しいコード生成パイプラインであるSLMFixを提案する。
- 参考スコア(独自算出の注目度): 39.94602104823846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large language models (LLMs) have shown very impressive capabilities in code generation across many programming languages. However, even state-of-the-art LLMs generate programs that contains syntactic errors and fail to complete the given tasks, especially for low-resource programming languages (LRPLs). In addition, high training cost makes finetuning LLMs unaffordable with constrained computational resources, further undermining the effectiveness of LLMs for code generation. In this work, we propose SLMFix, a novel code generation pipeline that leverages a small language model (SLM) finetuned using reinforcement learning (RL) techniques to fix syntactic errors in LLM-generated programs to improve the quality of LLM-generated programs for domain-specific languages (DSLs). In specific, we applied RL on the SLM for the program repair task using a reward calculated using both a static validator and a static semantic similarity metric. Our experimental results demonstrate the effectiveness and generalizability of our approach across multiple DSLs, achieving more than 95% pass rate on the static validator. Notably, SLMFix brings substantial improvement to the base model and outperforms supervised finetuning approach even for 7B models on a LRPL, showing the potential of our approach as an alternative to traditional finetuning approaches.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、多くのプログラミング言語におけるコード生成において非常に印象的な能力を示している。
しかし、最先端のLLMでさえ、構文エラーを含むプログラムを生成し、特に低リソースプログラミング言語(LRPL)では、与えられたタスクを完了できない。
さらに、高いトレーニングコストは、制約された計算資源で微調整のLLMを使用不能にし、さらにコード生成におけるLLMの有効性を損なう。
本研究では,LLM生成プログラムの構文的誤りを修正し,ドメイン固有言語(DSL)のためのLLM生成プログラムの品質を向上させるために,強化学習(RL)技術を用いて微調整された小型言語モデル(SLM)を利用する新しいコード生成パイプラインであるSLMFixを提案する。
具体的には,静的検証器と静的意味類似度指標の両方を用いて計算した報酬を用いて,プログラム修復作業のSLMにRLを適用した。
実験の結果,複数のDSLにまたがるアプローチの有効性と一般化性を示し,静的バリデータに対する95%以上のパスレートを実現した。
特に,SLMFixは,LRPL上の7Bモデルであっても,ベースモデルに大幅な改善をもたらし,教師付き微調整アプローチよりも優れており,従来の微調整アプローチの代替として,我々のアプローチの可能性を示している。
関連論文リスト
- An LLM-powered Natural-to-Robotic Language Translation Framework with Correctness Guarantees [40.31829665216206]
大規模言語モデル(LLM)は、特定のユーザタスクのためのロボット制御プログラムを生成するために、ロボット工学にますます導入されている。
本稿では,生成した制御プログラムの正当性検証を行う自然言語翻訳フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-26T14:32:49Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。
また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - CoMMIT: Coordinated Multimodal Instruction Tuning [90.1532838391285]
マルチモーダル大言語モデル(MLLM)は一般に、バックボーンLLMと非テキスト入力モードの特徴エンコーダ間の協調学習を含む。
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
本稿では,学習のバランスを定量的に測定できるマルチモーダルバランス係数を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - MORepair: Teaching LLMs to Repair Code via Multi-Objective Fine-tuning [25.03477973238162]
プログラム修復タスクに対するLLM(Large Language Model)の微調整アプローチは、コード変更の背後にあるロジックを推論する必要性を見落としている。
サイズやアーキテクチャの異なる4つのオープンソース LLM にMOobjective を適用する。
我々の微調整戦略は、最先端のアプローチよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-04-19T05:36:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。