Fugu-MT 論文翻訳(概要): Rethinking Verification for LLM Code Generation: From Generation to Testing

論文の概要: Rethinking Verification for LLM Code Generation: From Generation to Testing

arxiv url: http://arxiv.org/abs/2507.06920v2
Date: Thu, 10 Jul 2025 03:12:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-11 12:24:00.100488
Title: Rethinking Verification for LLM Code Generation: From Generation to Testing
Title（参考訳）: LLMコード生成の検証再考: 生成からテストまで
Authors: Zihan Ma, Taolin Zhang, Maosong Cao, Junnan Liu, Wenwei Zhang, Minnan Luo, Songyang Zhang, Kai Chen,
Abstract要約: 大規模言語モデル(LLM)は最近、HumanEvalやLiveCodeBenchといったコード生成ベンチマークで顕著な成功を収めた。本稿では,テストスーツの厳密な定量化を目的とした新しい多次元メトリクスを提案する。実験の結果、SAGAは90.62%、検証器の精度はTCGBenchで32.58%に達することがわかった。
参考スコア（独自算出の注目度）: 44.46778801679273
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have recently achieved notable success in code-generation benchmarks such as HumanEval and LiveCodeBench. However, a detailed examination reveals that these evaluation suites often comprise only a limited number of homogeneous test cases, resulting in subtle faults going undetected. This not only artificially inflates measured performance but also compromises accurate reward estimation in reinforcement learning frameworks utilizing verifiable rewards (RLVR). To address these critical shortcomings, we systematically investigate the test-case generation (TCG) task by proposing multi-dimensional metrics designed to rigorously quantify test-suite thoroughness. Furthermore, we introduce a human-LLM collaborative method (SAGA), leveraging human programming expertise with LLM reasoning capability, aimed at significantly enhancing both the coverage and the quality of generated test cases. In addition, we develop a TCGBench to facilitate the study of the TCG task. Experiments show that SAGA achieves a detection rate of 90.62% and a verifier accuracy of 32.58% on TCGBench. The Verifier Accuracy (Verifier Acc) of the code generation evaluation benchmark synthesized by SAGA is 10.78% higher than that of LiveCodeBench-v6. These results demonstrate the effectiveness of our proposed method. We hope this work contributes to building a scalable foundation for reliable LLM code evaluation, further advancing RLVR in code generation, and paving the way for automated adversarial test synthesis and adaptive benchmark integration.
Abstract（参考訳）: 大規模言語モデル(LLM)は最近、HumanEvalやLiveCodeBenchといったコード生成ベンチマークで顕著な成功を収めた。しかし、詳細な検査の結果、これらの評価スイートは限られた数の同質なテストケースで構成されており、微妙な欠陥が検出されないことが判明した。これは、測定性能を人工的に膨らませるだけでなく、検証可能な報酬(RLVR)を利用した強化学習フレームワークにおける正確な報酬推定を損なう。これらの重要な欠点に対処するために,テストケース生成(TCG)タスクを,テストに適した徹底度を厳密に定量化するために設計された多次元メトリクスによって体系的に検討する。さらに,人間-LLM協調手法 (SAGA) を導入し,LLM推論能力と人間のプログラミングの専門知識を活用し,生成したテストケースのカバレッジと品質を著しく向上することを目的とした。さらに,TCGタスクの学習を容易にするためのTCGBenchを開発した。実験の結果、SAGAは90.62%、検証器の精度はTCGBenchで32.58%に達することがわかった。 SAGAによって合成されたコード生成評価ベンチマークの検証精度(Verifier Acc)は、LiveCodeBench-v6よりも10.78%高い。これらの結果は,提案手法の有効性を示すものである。この研究が、信頼性の高いLLMコード評価のためのスケーラブルな基盤の構築、コード生成におけるRLVRのさらなる進歩、自動対向テスト合成と適応ベンチマーク統合の道を開くことに貢献することを願っている。

関連論文リスト

Benchmarking LLMs for Unit Test Generation from Real-World Functions [34.70460519870186]
ULT(UnLeakedTestbench)は,実世界のPython関数から関数レベルのユニットテストを生成するために設計された,新しいベンチマークである。 3,909個の関数レベルのタスクを慎重に選択することで、ULTはLLMのテスト生成能力をより現実的で挑戦的な評価を提供する。以上の結果から,ULTはより困難であることが示唆された。
論文参考訳（メタデータ） (2025-08-01T08:08:26Z)
Boosting Rust Unit Test Coverage through Hybrid Program Analysis and Large Language Models [14.536415473544146]
本稿では,大規模言語モデル(LLM)を活用して高カバレッジ単体テストを生成する手法であるPALMを提案する。 PALMはプログラム解析を行い、関数内の分岐条件を特定し、それを経路制約に結合する。このアプローチを実装し、それを10のオープンソースのRustクラッドで評価します。
論文参考訳（メタデータ） (2025-06-10T17:21:21Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文参考訳（メタデータ） (2025-02-19T15:32:11Z)
Reinforcement Learning from Automatic Feedback for High-Quality Unit Test Generation [12.503002900186997]
大規模言語モデル(LLM)は自動テストケース生成で人気を集めている。 LLMは大量のオープンソースコードでトレーニングされているため、ベストプラクティスに従わないテストケースをしばしば生成します。静的解析に基づく品質指標に基づく高品質な単体テストを生成するために,RLSQM(Reinforcement Learning from Static Quality Metrics)を提案する。
論文参考訳（メタデータ） (2024-12-18T20:20:01Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Enriching Automatic Test Case Generation by Extracting Relevant Test Inputs from Bug Reports [10.587260348588064]
BRMinerは,バグレポートから関連するインプットを抽出する従来の手法と組み合わせて,LLM(Large Language Models)を利用した新しいアプローチである。本研究では,Defects4JベンチマークとEvoSuiteやRandoopといったテスト生成ツールを用いたBRMinerの評価を行った。その結果、BRMinerは60.03%の関連入力レート(RIR)と31.71%の関連入力抽出精度(RIEAR)を達成した。
論文参考訳（メタデータ） (2023-12-22T18:19:33Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。