論文の概要: Rethinking Verification for LLM Code Generation: From Generation to Testing
- arxiv url: http://arxiv.org/abs/2507.06920v2
- Date: Thu, 10 Jul 2025 03:12:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 12:24:00.100488
- Title: Rethinking Verification for LLM Code Generation: From Generation to Testing
- Title(参考訳): LLMコード生成の検証再考: 生成からテストまで
- Authors: Zihan Ma, Taolin Zhang, Maosong Cao, Junnan Liu, Wenwei Zhang, Minnan Luo, Songyang Zhang, Kai Chen,
- Abstract要約: 大規模言語モデル(LLM)は最近、HumanEvalやLiveCodeBenchといったコード生成ベンチマークで顕著な成功を収めた。
本稿では,テストスーツの厳密な定量化を目的とした新しい多次元メトリクスを提案する。
実験の結果、SAGAは90.62%、検証器の精度はTCGBenchで32.58%に達することがわかった。
- 参考スコア(独自算出の注目度): 44.46778801679273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have recently achieved notable success in code-generation benchmarks such as HumanEval and LiveCodeBench. However, a detailed examination reveals that these evaluation suites often comprise only a limited number of homogeneous test cases, resulting in subtle faults going undetected. This not only artificially inflates measured performance but also compromises accurate reward estimation in reinforcement learning frameworks utilizing verifiable rewards (RLVR). To address these critical shortcomings, we systematically investigate the test-case generation (TCG) task by proposing multi-dimensional metrics designed to rigorously quantify test-suite thoroughness. Furthermore, we introduce a human-LLM collaborative method (SAGA), leveraging human programming expertise with LLM reasoning capability, aimed at significantly enhancing both the coverage and the quality of generated test cases. In addition, we develop a TCGBench to facilitate the study of the TCG task. Experiments show that SAGA achieves a detection rate of 90.62% and a verifier accuracy of 32.58% on TCGBench. The Verifier Accuracy (Verifier Acc) of the code generation evaluation benchmark synthesized by SAGA is 10.78% higher than that of LiveCodeBench-v6. These results demonstrate the effectiveness of our proposed method. We hope this work contributes to building a scalable foundation for reliable LLM code evaluation, further advancing RLVR in code generation, and paving the way for automated adversarial test synthesis and adaptive benchmark integration.
- Abstract(参考訳): 大規模言語モデル(LLM)は最近、HumanEvalやLiveCodeBenchといったコード生成ベンチマークで顕著な成功を収めた。
しかし、詳細な検査の結果、これらの評価スイートは限られた数の同質なテストケースで構成されており、微妙な欠陥が検出されないことが判明した。
これは、測定性能を人工的に膨らませるだけでなく、検証可能な報酬(RLVR)を利用した強化学習フレームワークにおける正確な報酬推定を損なう。
これらの重要な欠点に対処するために,テストケース生成(TCG)タスクを,テストに適した徹底度を厳密に定量化するために設計された多次元メトリクスによって体系的に検討する。
さらに,人間-LLM協調手法 (SAGA) を導入し,LLM推論能力と人間のプログラミングの専門知識を活用し,生成したテストケースのカバレッジと品質を著しく向上することを目的とした。
さらに,TCGタスクの学習を容易にするためのTCGBenchを開発した。
実験の結果、SAGAは90.62%、検証器の精度はTCGBenchで32.58%に達することがわかった。
SAGAによって合成されたコード生成評価ベンチマークの検証精度(Verifier Acc)は、LiveCodeBench-v6よりも10.78%高い。
これらの結果は,提案手法の有効性を示すものである。
この研究が、信頼性の高いLLMコード評価のためのスケーラブルな基盤の構築、コード生成におけるRLVRのさらなる進歩、自動対向テスト合成と適応ベンチマーク統合の道を開くことに貢献することを願っている。
関連論文リスト
- Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。
我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。
実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-02-19T15:32:11Z) - Reinforcement Learning from Automatic Feedback for High-Quality Unit Test Generation [12.503002900186997]
大規模言語モデル(LLM)は自動テストケース生成で人気を集めている。
LLMは大量のオープンソースコードでトレーニングされているため、ベストプラクティスに従わないテストケースをしばしば生成します。
静的解析に基づく品質指標に基づく高品質な単体テストを生成するために,RLSQM(Reinforcement Learning from Static Quality Metrics)を提案する。
論文 参考訳(メタデータ) (2024-12-18T20:20:01Z) - Enriching Automatic Test Case Generation by Extracting Relevant Test Inputs from Bug Reports [10.587260348588064]
BRMinerは,バグレポートから関連するインプットを抽出する従来の手法と組み合わせて,LLM(Large Language Models)を利用した新しいアプローチである。
本研究では,Defects4JベンチマークとEvoSuiteやRandoopといったテスト生成ツールを用いたBRMinerの評価を行った。
その結果、BRMinerは60.03%の関連入力レート(RIR)と31.71%の関連入力抽出精度(RIEAR)を達成した。
論文 参考訳(メタデータ) (2023-12-22T18:19:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。