Fugu-MT 論文翻訳(概要): SLMFix: Leveraging Small Language Models for Error Fixing with Reinforcement Learning

論文の概要: SLMFix: Leveraging Small Language Models for Error Fixing with Reinforcement Learning

arxiv url: http://arxiv.org/abs/2511.19422v1
Date: Mon, 24 Nov 2025 18:56:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-25 18:34:25.377364
Title: SLMFix: Leveraging Small Language Models for Error Fixing with Reinforcement Learning
Title（参考訳）: SLMFix: 強化学習による誤り修正のための小さな言語モデルを活用する
Authors: David Jiahao Fu, Aryan Gupta, Aaron Councilman, David Grove, Yu-Xiong Wang, Vikram Adve,
Abstract要約: 大規模言語モデル(LLM)は、構文的エラーを含むプログラムを生成し、与えられたタスクを完了できない。本研究では、強化学習(RL)技術を用いて微調整された小言語モデル(SLM)を利用する新しいコード生成パイプラインであるSLMFixを提案する。
参考スコア（独自算出の注目度）: 39.94602104823846
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in large language models (LLMs) have shown very impressive capabilities in code generation across many programming languages. However, even state-of-the-art LLMs generate programs that contains syntactic errors and fail to complete the given tasks, especially for low-resource programming languages (LRPLs). In addition, high training cost makes finetuning LLMs unaffordable with constrained computational resources, further undermining the effectiveness of LLMs for code generation. In this work, we propose SLMFix, a novel code generation pipeline that leverages a small language model (SLM) finetuned using reinforcement learning (RL) techniques to fix syntactic errors in LLM-generated programs to improve the quality of LLM-generated programs for domain-specific languages (DSLs). In specific, we applied RL on the SLM for the program repair task using a reward calculated using both a static validator and a static semantic similarity metric. Our experimental results demonstrate the effectiveness and generalizability of our approach across multiple DSLs, achieving more than 95% pass rate on the static validator. Notably, SLMFix brings substantial improvement to the base model and outperforms supervised finetuning approach even for 7B models on a LRPL, showing the potential of our approach as an alternative to traditional finetuning approaches.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、多くのプログラミング言語におけるコード生成において非常に印象的な能力を示している。しかし、最先端のLLMでさえ、構文エラーを含むプログラムを生成し、特に低リソースプログラミング言語(LRPL)では、与えられたタスクを完了できない。さらに、高いトレーニングコストは、制約された計算資源で微調整のLLMを使用不能にし、さらにコード生成におけるLLMの有効性を損なう。本研究では,LLM生成プログラムの構文的誤りを修正し,ドメイン固有言語(DSL)のためのLLM生成プログラムの品質を向上させるために,強化学習(RL)技術を用いて微調整された小型言語モデル(SLM)を利用する新しいコード生成パイプラインであるSLMFixを提案する。具体的には,静的検証器と静的意味類似度指標の両方を用いて計算した報酬を用いて,プログラム修復作業のSLMにRLを適用した。実験の結果,複数のDSLにまたがるアプローチの有効性と一般化性を示し,静的バリデータに対する95%以上のパスレートを実現した。特に,SLMFixは,LRPL上の7Bモデルであっても,ベースモデルに大幅な改善をもたらし,教師付き微調整アプローチよりも優れており,従来の微調整アプローチの代替として,我々のアプローチの可能性を示している。

関連論文リスト

An LLM-powered Natural-to-Robotic Language Translation Framework with Correctness Guarantees [40.31829665216206]
大規模言語モデル(LLM)は、特定のユーザタスクのためのロボット制御プログラムを生成するために、ロボット工学にますます導入されている。本稿では,生成した制御プログラムの正当性検証を行う自然言語翻訳フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-26T14:32:49Z)
Breaking Language Barriers: Equitable Performance in Multilingual Language Models [17.343456129678067]
LLMは、ヒンディー語やスワヒリ語のような低リソース言語(LRL)において、英語のような高リソース言語(HRL)と比較して、CSR(Common Sense Reasoning)タスクにおいて、さらにパフォーマンスが悪くなる。我々のアプローチは、制御された言語混合法を用いて生成された合成コード切替テキスト上でLLMを微調整することである。そこで本稿では,CommonSenseQAデータセットから派生した,3つの異なる言語比構成を特徴とする合成符号切替テキストのデータセットを提案する。
論文参考訳（メタデータ） (2025-08-18T06:50:24Z)
Large Language Model Unlearning for Source Code [65.42425213605114]
PRODは、LLMがコード生成能力を保ちながら、望ましくないコード内容を忘れることができる新しいアンラーニングアプローチである。本評価は,既存の未学習アプローチと比較して,忘れ品質とモデルユーティリティのバランスが良好であることを示す。
論文参考訳（メタデータ） (2025-06-20T16:27:59Z)
Bridge-Coder: Unlocking LLMs' Potential to Overcome Language Gaps in Low-Resource Code [31.48411893252137]
LLM(Large Language Models)は、Pythonのような高リソースプログラミング言語(HRPL)のコードを生成する能力を示すが、RacketやDのような低リソースプログラミング言語(LRPL)と大きく競合する。このパフォーマンスギャップは、デジタル格差を深くし、LRPLを使用する開発者がLLMの進歩から等しく利益を得るのを防ぎ、表現不足のプログラミングコミュニティにおけるイノベーションの格差を補強する。 LRPLの性能を高めるために,LLMの本質的な能力を活用したBridge-Coderという新しい手法を導入する。
論文参考訳（メタデータ） (2024-10-24T17:55:03Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
Stacking Small Language Models for Generalizability [0.0]
大規模言語モデル(LLM)は、異なる自然言語ベンチマークで強いパフォーマンスを一般化する。本稿では,言語モデルの微調整スタック (FSLM) と呼ばれる新しいアプローチを提案する。特定のタスクを実行するために各SLMを微調整することにより、このアプローチは、特定のSLMが責任を負う複数の低レベルステップに高レベル推論を分解する。その結果、FSLMはトレーニングと推論のコストを低減し、各SLMが後続のSLMと自然言語を介して通信するので、モデルの解釈性を向上させることができる。
論文参考訳（メタデータ） (2024-10-21T01:27:29Z)
CoMMIT: Coordinated Multimodal Instruction Tuning [90.1532838391285]
マルチモーダル大言語モデル(MLLM)は一般に、バックボーンLLMと非テキスト入力モードの特徴エンコーダ間の協調学習を含む。本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。本稿では,学習のバランスを定量的に測定できるマルチモーダルバランス係数を提案する。
論文参考訳（メタデータ） (2024-07-29T23:18:55Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
MORepair: Teaching LLMs to Repair Code via Multi-Objective Fine-tuning [25.03477973238162]
プログラム修復タスクに対するLLM(Large Language Model)の微調整アプローチは、コード変更の背後にあるロジックを推論する必要性を見落としている。サイズやアーキテクチャの異なる4つのオープンソース LLM にMOobjective を適用する。我々の微調整戦略は、最先端のアプローチよりも優れた性能が得られることを示す。
論文参考訳（メタデータ） (2024-04-19T05:36:21Z)
Exploring Data-Efficient Adaptation of Large Language Models for Code Generation [64.5583894165813]
コード生成のための誤り駆動学習を用いたデータ効率向上のための新しい適応手法DEEDを提案する。実験により、他の主流の微調整手法と比較して、DEEDは訓練データが少なく、優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-02-29T16:09:02Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。