論文の概要: VeriScale: Adversarial Test-Suite Scaling for Verifiable Code Generation
- arxiv url: http://arxiv.org/abs/2605.22368v1
- Date: Thu, 21 May 2026 12:00:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.243078
- Title: VeriScale: Adversarial Test-Suite Scaling for Verifiable Code Generation
- Title(参考訳): VeriScale: 検証可能なコード生成のための逆テストスイートスケーリング
- Authors: Yifan Bai, Xiaoyang Liu, Zihao Mou, Guihong Wang, Jian Yu, Shuhan Xie, Yantao Li, Yangyu Zhang, Jingwei Liang, Tao Luo,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェアエンジニアリングのためにますます多くデプロイされている。
既存のベンチマークは、肯定的なテストケースと否定的なテストケースの量と品質によって制限される。
対戦型実装によって駆動される新しいフレームワークであるVeriScaleを提案する。
- 参考スコア(独自算出の注目度): 11.115405688205724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are increasingly deployed for software engineering, constructing high-quality benchmarks is crucial for evaluating not just the functional correctness, but also the formal verifiability of generated code. However, existing benchmarks are limited by the quantity and quality of positive and negative test cases, leading to an overestimation of model capabilities in generating specifications and implementations. To address this, we propose VeriScale, a novel framework driven by the adversarial implementations. It consists of two stages: test-suite expansion to construct diverse and challenging test cases, and test-suite reduction to distill them into compact yet discriminative suites. While VeriScale is general, we instantiate it on Verina to construct VerinaPlus, which expands the original test suites by over 83$\times$, and VerinaLite, a lightweight 14$\times$ variant. Our experiments across eight state-of-the-art LLMs demonstrate that VerinaPlus exposes substantial model weaknesses hidden by the original benchmark, evidenced by sharp score drops on both SpecGen and CodeGen tasks, whereas VerinaLite maintains this discriminative power at a fraction of the evaluation cost. The enhanced benchmarks and source code are publicly available at https://github.com/XiaoyangLiu-sjtu/VeriScale.
- Abstract(参考訳): 大規模言語モデル(LLM)がソフトウェアエンジニアリングにますます導入されるにつれて、高品質なベンチマークの構築は、機能的正確性だけでなく、生成されたコードの形式的妥当性を評価する上でも不可欠である。
しかし、既存のベンチマークは、肯定的なテストケースと否定的なテストケースの量と品質によって制限されており、仕様や実装を生成する際のモデル能力の過大評価につながります。
これを解決するために,敵対的実装によって駆動される新しいフレームワークであるVeriScaleを提案する。
それは、多様で挑戦的なテストケースを構築するためのテストスーツ展開と、それらをコンパクトで差別的なスイートに蒸留するためのテストスーツ還元の2段階で構成されている。
VeriScaleは一般的なものだが、Verina上でインスタンス化してVerinaPlusを構築する。VerinaPlusはオリジナルのテストスイートを83$\times$に拡張し、VerinaLiteは14$\times$の軽量版である。
VerinaPlusは、SpecGenタスクとCodeGenタスクの急激なスコアダウンによって証明され、VerinaLiteは評価コストのごく一部でこの識別力を維持している。
拡張されたベンチマークとソースコードはhttps://github.com/XiaoyangLiu-sjtu/VeriScaleで公開されている。
関連論文リスト
- TestDecision: Sequential Test Suite Generation via Greedy Optimization and Reinforcement Learning [17.157244731153554]
MDPとしてテストスイートの生成を形式化し,その目的が単調な部分モジュラリティを示すことを示す。
本研究では,LSMを神経グリージーの専門家に変換するTestDecisionを提案する。
TestDecisionは既存の高度なメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2026-04-02T09:13:52Z) - Code-A1: Adversarial Evolving of Code LLM and Test LLM via Reinforcement Learning [54.95476453942411]
コード生成のための強化学習は、単体テストのパスレートから検証可能な報酬に依存する。
最近のセルフプレイ手法は、1つのモデルでコードとテスト生成を統合する。
Code-A1は、人間のアノテーションによるテストでトレーニングされたコード生成のパフォーマンスマッチングまたはモデルを超えることを実現する。
論文 参考訳(メタデータ) (2026-03-16T17:58:13Z) - EvolveGen: Algorithmic Level Hardware Model Checking Benchmark Generation through Reinforcement Learning [4.8941849720433686]
ハードウェアモデルチェックベンチマークを生成するフレームワークであるEvolveGenを紹介する。
提案手法は、RLエージェントが計算グラフを構築することを学習するアルゴリズム的な抽象レベルで機能する。
実験の結果,EvolveGenは標準フォーマットの多様なベンチマークセットを効率的に作成できることがわかった。
論文 参考訳(メタデータ) (2026-02-26T04:32:07Z) - How Many Code and Test Cases Are Enough? Evaluating Test Cases Generation from a Binary-Matrix Perspective [51.30005925128432]
LLM(Large Language Models)が自動生成するテストケースの評価は、非常に難しい作業です。
既存のベンチマークは高い計算コスト、インフレーションのスコア、稀でクリティカルな欠陥に対する自明なバグに対するバイアスに悩まされている。
本稿では,ベンチマーク構築をバイナリコードテスト行列の最適な診断基準として定式化するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T18:29:24Z) - VERINA: Benchmarking Verifiable Code Generation [46.582574591358735]
大規模言語モデル(LLM)は、ソフトウェア開発にますます統合されている。
LLM生成コードの正確性を保証することは依然として困難である。
検証可能なコード生成は、この制限に対処するための有望なパスを提供する。
論文 参考訳(メタデータ) (2025-05-29T06:12:52Z) - VerifyThisBench: Generating Code, Specifications, and Proofs All at Once [9.383313869205628]
本稿では,自然言語記述からエンドツーエンドのプログラム検証を評価する新しいベンチマークを提案する。
評価の結果,o3-miniのような最先端(SOTA)モデルでさえ,パスレートが4%未満であることが確認された。
論文 参考訳(メタデータ) (2025-05-25T19:00:52Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。