論文の概要: Do Large Language Models Respect Contracts? Evaluating and Enforcing Contract-Adherence in Code Generation
- arxiv url: http://arxiv.org/abs/2510.12047v2
- Date: Wed, 15 Oct 2025 02:21:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 13:11:49.475939
- Title: Do Large Language Models Respect Contracts? Evaluating and Enforcing Contract-Adherence in Code Generation
- Title(参考訳): 大規模言語モデルは契約を尊重するか? コード生成における契約順性の評価と強化
- Authors: Soohan Lim, Joonghyuk Hahn, Hyunwoo Park, Sang-Ki Ko, Yo-Sub Han,
- Abstract要約: PACTは、プログラムアセスメントおよび契約順応評価フレームワークである。
契約違反に焦点を当てた包括的なテストスーツコーパスを提供する。
様々なプロンプト条件下でのコード生成の体系的解析を可能にする。
- 参考スコア(独自算出の注目度): 11.445615378917578
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Prevailing code generation benchmarks, such as HumanEval+ and MBPP+, primarily evaluate large language models (LLMs) with pass@k on functional correctness using well-formed inputs. However, they ignore a crucial aspect of real-world software: adherence to contracts-the preconditions and validity constraints that dictate how ill-formed inputs must be rejected. This critical oversight means that existing benchmarks fail to measure, and models consequently fail to generate, truly robust and reliable code snippets. We introduce PACT, a program assessment and contract-adherence evaluation framework, to bridge this gap. PACT is the first framework designed to systematically evaluate and enhance contract-adherence in LLM-generated code snippets alongside functional correctness. PACT's contributions are threefold: First, it provides a comprehensive test-suite corpus focused on contract violations, extending HumanEval+ and MBPP+. Second, it enables a systematic analysis of code generation under varied prompting conditions. This analysis demonstrates that augmenting prompts with contract-violating test cases significantly enhance a model's ability to respect contracts compared to using contract description alone. Finally, it introduces novel metrics to rigorously quantify contract adherence in both test generation and code generation. By revealing critical errors that conventional benchmarks overlook, PACT provides the rigorous and interpretable metrics to evaluate the robustness of LLM-generated code snippets in both functionality and contract-adherence. Our code and data are available at https://github.com/suhanmen/PACT.
- Abstract(参考訳): HumanEval+やMBPP+のような一般的なコード生成ベンチマークは、よく整形された入力を使用して関数的正しさにpass@kを持つ大きな言語モデル(LLM)を主に評価する。
しかし、彼らは現実世界のソフトウェアにおいて重要な側面を無視している。契約の遵守-前提条件と、不正な入力を拒否するかを規定する妥当性の制約。
この重要な監視は、既存のベンチマークが測定に失敗し、結果としてモデルが生成に失敗し、真に堅牢で信頼性の高いコードスニペットを生成することを意味する。
このギャップを埋めるために、プログラムアセスメントと契約順守評価フレームワークであるPACTを紹介します。
PACTは、LLM生成コードスニペットにおいて、機能的正しさとともに契約順守を体系的に評価し、強化するように設計された最初のフレームワークである。
まず、契約違反に焦点を当てた包括的なテストスーツコーパスを提供し、HumanEval+とMBPP+を拡張する。
第二に、様々なプロンプト条件下でのコード生成の体系的解析を可能にする。
この分析により、契約違反テストケースによる拡張プロンプトは、契約記述のみを使用する場合と比較して、契約を尊重するモデルの能力を大幅に向上することが示された。
最後に、テスト生成とコード生成の両方において、契約の遵守を厳格に定量化するために、新しいメトリクスを導入する。
従来のベンチマークが見落としている致命的なエラーを明らかにすることで、PACTは、LLM生成コードスニペットの堅牢性と契約順性を評価するために、厳密で解釈可能なメトリクスを提供する。
私たちのコードとデータはhttps://github.com/suhanmen/PACT.orgで公開されています。
関連論文リスト
- Beyond Postconditions: Can Large Language Models infer Formal Contracts for Automatic Software Verification? [1.9551668880584971]
大規模言語モデル(LLM)は、自然言語のヒントから正式な後条件を推測する際の約束を示す。
NL2Contractは,非公式な自然言語を形式的関数型コントラクトに変換するためにLLMを使用するタスクである。
NL2Contract with different LLMs and compared it to the task of postcondition generation nl2postcond。
論文 参考訳(メタデータ) (2025-10-14T16:37:39Z) - SolContractEval: A Benchmark for Evaluating Contract-Level Solidity Code Generation [17.116315125396696]
Solidityはスマートコントラクトの主要な言語です。
既存の評価は、実世界の契約開発におけるモデルの能力を評価するに足りません。
SolContractEvalは、Solidityコード生成のための最初のコントラクトレベルのベンチマークです。
論文 参考訳(メタデータ) (2025-09-28T11:53:41Z) - Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset [0.0]
本稿では,22の大規模C/C++プロジェクトから得られた関数レベル修正の信頼性の高いベンチマークであるReDefを紹介する。
欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。
このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
論文 参考訳(メタデータ) (2025-09-11T07:07:11Z) - Alignment with Fill-In-the-Middle for Enhancing Code Generation [56.791415642365415]
コードスニペットを小さな粒度のブロックに分割し,同じテストケースからより多様なDPOペアを生成する手法を提案する。
提案手法は,HumanEval (+), MBPP (+), APPS, LiveCodeBench, BigCodeBenchといったベンチマークデータセットの実験によって検証された,コード生成タスクの大幅な改善を示す。
論文 参考訳(メタデータ) (2025-08-27T03:15:53Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - SolBench: A Dataset and Benchmark for Evaluating Functional Correctness in Solidity Code Completion and Repair [51.0686873716938]
コード補完モデルによって生成されたSolidityスマートコントラクトの機能的正しさを評価するベンチマークであるSolBenchを紹介する。
本稿では,スマートコントラクトの機能的正当性を検証するための検索拡張コード修復フレームワークを提案する。
その結果、コード修復と検索技術は、計算コストを削減しつつ、スマートコントラクト完了の正しさを効果的に向上することを示した。
論文 参考訳(メタデータ) (2025-03-03T01:55:20Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - Code Comment Inconsistency Detection with BERT and Longformer [9.378041196272878]
ソースコードの自然言語記述であるコメントは、ソフトウェア開発者の間で標準的なプラクティスである。
コメントに付随する修正を加えずにコードを変更すると、コメントとコードの間に矛盾が生じます。
本研究では,自然言語推論(NLI)の文脈における不整合を検出するための2つのモデルを提案する。
論文 参考訳(メタデータ) (2022-07-29T02:43:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。