論文の概要: Use Property-Based Testing to Bridge LLM Code Generation and Validation
- arxiv url: http://arxiv.org/abs/2506.18315v1
- Date: Mon, 23 Jun 2025 06:01:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.873162
- Title: Use Property-Based Testing to Bridge LLM Code Generation and Validation
- Title(参考訳): LLMコード生成と検証の橋渡しにおけるプロパティベーステストの利用
- Authors: Lehan He, Zeren Chen, Zhe Zhang, Jing Shao, Xiang Gao, Lu Sheng,
- Abstract要約: 大きな言語モデル(LLM)はコード生成において優れていますが、その出力が機能的に正しいことを保証することは、永続的な課題です。
本稿では,Property-Generated Solverを紹介した。Property-Based Testing (PBT)を活用して,高レベルのプログラム特性を検証する新しいフレームワークである。
プロパティ生成ソルバーには、コード生成と反復リファインメント専用のジェネレータと、PBTライフサイクルを管理するテスタという、2つの共同LLMベースのエージェントが使用されている。
- 参考スコア(独自算出の注目度): 38.25155484701058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) excel at code generation, but ensuring their outputs to be functionally correct, especially in complex programming tasks, is a persistent challenge. While traditional Test-Driven Development (TDD) offers a path for code refinement, its efficacy with LLMs is often undermined by the scarcity of high-quality test cases or the pitfalls of automated test generation, including biased tests or inaccurate output predictions that can misdirect the correction process. This paper introduces Property-Generated Solver, a novel framework that leverages Property-Based Testing (PBT) to validate high-level program properties or invariants, instead of relying on specific input-output examples. These properties are often simpler to define and verify than directly predicting exhaustive test oracles, breaking the "cycle of self-deception" where tests might share flaws with the code they are meant to validate. Property-Generated Solver employs two collaborative LLM-based agents: a Generator dedicated to code generation and iterative refinement, and a Tester that manages the PBT life-cycle and formulate semantically rich feedback from property violations. The resulting comprehensive and actionable feedback then guides the Generator in its refinement efforts. By establishing PBT as the core validation engine within this iterative, closed-loop paradigm, Property-Generated Solver provides a robust mechanism for steering LLMs towards more correct and generalizable code. Extensive experimental results on multiple code generation benchmarks demonstrate that Property-Generated Solver achieves substantial pass@1 improvements, ranging from 23.1% to 37.3% relative gains over established TDD methods.
- Abstract(参考訳): 大きな言語モデル(LLM)はコード生成において優れていますが、特に複雑なプログラミングタスクにおいて、出力が機能的に正しいことを保証することは、永続的な課題です。
従来のテスト駆動開発(TDD)はコードの洗練のためのパスを提供するが、LLMによる有効性は、高品質のテストケースの不足や自動テスト生成の落とし穴によって損なわれることが多い。
本稿では,PBT(Property-Generated Solver)という,PBT(Property-Based Testing)を利用した高レベルのプログラム特性や不変性を検証する新しいフレームワークを紹介する。
これらの特性は、徹底したテストのオラクルを直接予測するよりも定義し、検証することがより簡単で、テストが検証対象のコードと欠陥を共有する「自己認識のサイクル」を破る可能性がある。
プロパティ生成ソルバーは、コード生成と反復リファインメントに特化したジェネレータと、PBTライフサイクルを管理し、プロパティ違反からのセマンティックにリッチなフィードバックを定式化するテスタの2つの共同LLMベースのエージェントを採用している。
結果として得られた包括的で実行可能なフィードバックは、ジェネレータの洗練作業のガイドとなる。
この反復的でクローズドループのパラダイムの中で、PBTをコアバリデーションエンジンとして確立することにより、Property-Generated Solverは、より正確で一般化可能なコードに向けてLLMを操る堅牢なメカニズムを提供する。
複数のコード生成ベンチマークに関する大規模な実験結果によると、Property-Generated Solverは、23.1%から37.3%という、確立したTDDメソッドよりも大幅に改善されている。
関連論文リスト
- Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - SWT-Bench: Testing and Validating Real-World Bug-Fixes with Code Agents [10.730852617039451]
ユーザ問題をテストケースに形式化するLLMベースのコードエージェントについて検討する。
我々は人気のあるGitHubリポジトリに基づいた新しいベンチマークを提案し、現実世界の問題、地味なバグフィックス、ゴールデンテストを含む。
コード修復用に設計されたコードエージェントは,テスト生成用に設計されたシステムの性能を上回っている。
論文 参考訳(メタデータ) (2024-06-18T14:54:37Z) - Test-Driven Development for Code Generation [0.850206009406913]
大きな言語モデル(LLM)は、問題ステートメントから直接コードスニペットを生成する重要な機能を示している。
本稿では,テスト駆動開発(TDD)をAI支援コード生成プロセスに組み込む方法について検討する。
論文 参考訳(メタデータ) (2024-02-21T04:10:12Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。