論文の概要: Improving Code Generation via Small Language Model-as-a-judge
- arxiv url: http://arxiv.org/abs/2602.11911v1
- Date: Thu, 12 Feb 2026 13:07:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.824084
- Title: Improving Code Generation via Small Language Model-as-a-judge
- Title(参考訳): 小言語モデル・アズ・ア・ジャッジによるコード生成の改善
- Authors: Giuseppe Crupi, Rosalia Tufano, Gabriele Bavota,
- Abstract要約: 我々は、コード正当性判断として最先端のSLMをいくつか訓練し、正しい実装と間違った実装を区別する能力を評価する。
現代のSLMは,実行ベース情報を活用することなく,RanEFよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 14.067404766521607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown remarkable capabilities in automated code generation. While effective for mainstream languages, they may underperform on less common or domain-specific languages, prompting companies to develop in-house code generators. While open-source models can be trained for this, only LLMs with tens of billions of parameters match the performance of commercial tools, demanding costly training and deployment. Recent work proposed supporting code generation with smaller models (SLMs) by generating multiple candidate solutions and using another SLM to select the most likely correct one. The most recent work in this area is the one by Sun et al. [29] presenting RankEF, a T5 model trained to rank code solutions using both execution-based and non-execution-based information. However, Sun et al. do not assess the T5 ranker's classification accuracy, that is, how often it misjudges correct implementations as incorrect or vice versa, leaving open questions about the reliability of LMs as code correctness judges for other tasks (e.g., automated code review). Moreover, their experiments involve relatively old models, making it unclear the extent to which such a methodology would still help companies in cheaply training their own code generators with performance comparable to those of massive LLMs. We present a study addressing these limitations. We train several state-of-the-art SLMs as code correctness judges and assess their ability to discriminate between correct and wrong implementations. We show that modern SLMs outperform RankEF, even without exploiting execution-based information. When used as code rankers, they achieve higher performance gains than RankEF and perform competitively with LLMs 5-25x larger, at a fraction of the cost.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自動コード生成において顕著な能力を示している。
主流言語では有効だが、あまり一般的でない言語やドメイン固有の言語では性能が劣る可能性があるため、企業は社内コードジェネレータを開発する必要がある。
このためにオープンソースのモデルはトレーニングできるが、商用ツールのパフォーマンスにマッチするパラメータが数千億あるLCMだけが、コストのかかるトレーニングとデプロイメントを必要としている。
最近の研究は、より小さなモデル(SLM)で複数の候補解を生成し、最も正しい候補を選択するために別のSLMを使用することによって、コード生成を支援することを提案した。
これは、実行ベースと非実行ベースの両方の情報を使用して、コードソリューションのランク付けを訓練されたT5モデルである。
しかし、SunらはT5ローダの分類精度を評価せず、どのように正しく実装されているかが間違っているか、あるいはその逆であると判断し、LMの信頼性に関するオープンな質問を他のタスク(例えば、自動化されたコードレビュー)の正当性判定として残している。
さらに、彼らの実験には比較的古いモデルが含まれており、そのような方法論が企業が大規模なLLMに匹敵するパフォーマンスで、自分たちのコードジェネレータを安価にトレーニングするのに役立つかは明らかでない。
これらの制限に対処する研究について述べる。
我々は、コード正当性判断として最先端のSLMをいくつか訓練し、正しい実装と間違った実装を区別する能力を評価する。
現代のSLMは,実行ベース情報を活用することなく,RanEFよりも優れていることを示す。
コードローダとして使用すると、RangeEFよりも高いパフォーマンス向上を実現し、LLMを5倍から25倍のコストで競合的に実行する。
関連論文リスト
- An Experimental Study of Real-Life LLM-Proposed Performance Improvements [2.503024366864326]
大きな言語モデル(LLM)はコードを生成することができますが、高速コードを生成することができますか?
我々は,オープンソースのJavaプログラムから抽出した65の実世界のタスクのデータセットを用いて,この問題を研究する。
論文 参考訳(メタデータ) (2025-10-17T10:06:52Z) - On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。
コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文 参考訳(メタデータ) (2025-07-22T13:40:26Z) - CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks [63.562924932512765]
LLM(Large Language Models)は、様々なコーディングタスクにおいて最先端の言語モデルである。
LLMは、他のモデルによって生成された応答の品質を評価し、比較する裁判官としても機能する。
論文 参考訳(メタデータ) (2025-07-14T17:56:29Z) - Evaluating Large Language Models on Non-Code Software Engineering Tasks [4.381476817430934]
大規模言語モデル(LLM)は、コード理解と生成において顕著な能力を示している。
ソフトウェア工学言語理解(SELU)と呼ばれる最初の包括的なベンチマークを提示する。
SELUは、分類、回帰、名前付きエンティティ認識(NER)とマスケッド言語モデリング(MLM)のターゲットをカバーし、さまざまなソースからデータを引き出す。
論文 参考訳(メタデータ) (2025-06-12T15:52:32Z) - Rethinking Code Refinement: Learning to Judge Code Efficiency [60.04718679054704]
大規模言語モデル(LLM)は、コードを理解して生成する素晴らしい能力を示しています。
本稿では,2つの異なる符号間の効率を判定するために訓練されたコード言語モデルに基づく新しい手法を提案する。
提案手法は,複数の改良ステップで複数のプログラミング言語に対して検証し,より効率的で少ないバージョンのコードの識別を効果的に行うことができることを示した。
論文 参考訳(メタデータ) (2024-10-29T06:17:37Z) - Improving the Ability of Pre-trained Language Model by Imparting Large Language Model's Experience [4.814313782484443]
大規模言語モデル (LLM) と事前訓練型言語モデル (LM) は多くのソフトウェア工学のタスクにおいて驚くべき成功を収めた。
我々は、LLMを用いてドメイン固有のデータを生成し、目標タスクにおける事前学習されたLMの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-16T06:37:59Z) - Exploring Data-Efficient Adaptation of Large Language Models for Code Generation [64.5583894165813]
コード生成のための誤り駆動学習を用いたデータ効率向上のための新しい適応手法DEEDを提案する。
実験により、他の主流の微調整手法と比較して、DEEDは訓練データが少なく、優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-02-29T16:09:02Z) - Evaluating Instruction-Tuned Large Language Models on Code Comprehension
and Generation [4.310519298899164]
本研究では,4つの代表的コード理解および生成タスクに対して,オープンソースのLLMを10個評価する。
ゼロショット設定では、命令されたLLMはコード理解と生成タスクに非常に競合する。
数ショット設定では,実演例の追加がLLMの性能向上に有効であることが判明した。
論文 参考訳(メタデータ) (2023-08-02T15:54:22Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。