Fugu-MT 論文翻訳(概要): SpecGen: Automated Generation of Formal Program Specifications via Large Language Models

論文の概要: SpecGen: Automated Generation of Formal Program Specifications via Large Language Models

arxiv url: http://arxiv.org/abs/2401.08807v2
Date: Sun, 24 Mar 2024 03:01:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 01:55:44.263727
Title: SpecGen: Automated Generation of Formal Program Specifications via Large Language Models
Title（参考訳）: SpecGen: 大規模言語モデルによる形式的プログラム仕様の自動生成
Authors: Lezhi Ma, Shangqing Liu, Yi Li, Xiaofei Xie, Lei Bu,
Abstract要約: SpecGenは、大規模言語モデルに基づく形式的なプログラム仕様生成のための新しいテクニックである。 SV-COMP 279ベンチマークと手動で構築したデータセットを含む2つのデータセット上でSpecGenを評価する。
参考スコア（独自算出の注目度）: 20.36964281778921
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Formal program specifications play a crucial role in various stages of software development. However, manually crafting formal program specifications is rather difficult, making the job time-consuming and labor-intensive. It is even more challenging to write specifications that correctly and comprehensively describe the semantics of complex programs. To reduce the burden on software developers, automated specification generation methods have emerged. However, existing methods usually rely on predefined templates or grammar, making them struggle to accurately describe the behavior and functionality of complex real-world programs. To tackle this challenge, we introduce SpecGen, a novel technique for formal program specification generation based on Large Language Models. Our key insight is to overcome the limitations of existing methods by leveraging the code comprehension capability of LLMs. The process of SpecGen consists of two phases. The first phase employs a conversational approach that guides the LLM to generate appropriate specifications for a given program. The second phase, designed for where the LLM fails to generate correct specifications, applies four mutation operators to the model-generated specifications and selects verifiable specifications from the mutated ones through a novel heuristic selection strategy. We evaluate SpecGen on two datasets, including the SV-COMP Java category benchmark and a manually constructed dataset. Experimental results demonstrate that SpecGen succeeds in generating verifiable specifications for 279 out of 385 programs, outperforming the existing purely LLM-based approaches and conventional specification generation tools like Houdini and Daikon. Further investigations on the quality of generated specifications indicate that SpecGen can comprehensively articulate the behaviors of the input program.
Abstract（参考訳）: 正式なプログラム仕様は、ソフトウェア開発の様々な段階で重要な役割を果たす。しかし、正式なプログラム仕様を手作業で作成するのは難しいため、仕事の時間と労働集約性は高い。複雑なプログラムのセマンティクスを正しく包括的に記述する仕様を書くことはさらに困難である。ソフトウェア開発者の負担を軽減するため、自動仕様生成手法が登場した。しかし、既存のメソッドは通常事前に定義されたテンプレートや文法に依存しており、複雑な現実世界のプログラムの振る舞いや機能を正確に記述するのに苦労している。そこで本研究では,大規模言語モデルに基づくプログラム仕様生成手法であるSpecGenを紹介する。我々の重要な洞察は、LLMのコード理解能力を活用することで、既存のメソッドの限界を克服することである。 SpecGenのプロセスは2つのフェーズから構成される。第1フェーズでは、LLMが与えられたプログラムの適切な仕様を生成するための対話的なアプローチが採用されている。 LLMが正しい仕様を生成できないように設計された第2フェーズでは、モデル生成仕様に4つの突然変異演算子を適用し、新しいヒューリスティック選択戦略によって変異した仕様から検証可能な仕様を選択する。 SV-COMP Javaカテゴリベンチマークと手作業で構築したデータセットを含む,2つのデータセット上でSpecGenを評価する。実験の結果、SpecGenは385のプログラムのうち279の検証可能な仕様を生成することに成功し、既存のLLMベースのアプローチやHoudiniやDaikonといった従来の仕様生成ツールよりも優れていた。生成された仕様の品質に関するさらなる調査は、SpecGenが入力プログラムの振る舞いを包括的に記述できることを示している。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Leveraging LLMs for Formal Software Requirements -- Challenges and Prospects [0.0]
VERIFAI1は、このギャップを埋めるための自動化および半自動化アプローチを調査することを目的としている。本論文では, 課題の繰り返しと今後の研究方向性を明らかにするために, 関連文献の予備的な合成について述べる。
論文参考訳（メタデータ） (2025-07-18T19:15:50Z)
Grammar-Guided Evolutionary Search for Discrete Prompt Optimisation [63.97051732013936]
本稿では,2段階からなる離散的な自動最適化に対する進化的探索手法を提案する。第1段階では、文法誘導型遺伝的プログラミングが実行され、プロンプト生成プログラムを合成する。第2段階では、局所探索を用いて、最高のパフォーマンスプログラムの周辺を探索する。
論文参考訳（メタデータ） (2025-07-14T14:34:15Z)
GenerationPrograms: Fine-grained Attribution with Executable Programs [72.23792263905372]
コードエージェント」アーキテクチャの最近の進歩に触発されたモジュラー生成フレームワークであるGenerationProgramsを導入する。 GenerationProgramsは、プロセスを2つの異なるステージに分解する: まず、クエリに明示的に調整されたモジュール形式のテキスト操作からなる実行可能なプログラムプランを作成し、次に、プログラムの指定した命令に従ってこれらの操作を実行し、最終的な応答を生成する。経験的評価は、生成プログラムは文書レベルと文レベルの両方の属性品質を著しく改善することを示している。
論文参考訳（メタデータ） (2025-06-17T14:37:09Z)
AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。 AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文参考訳（メタデータ） (2025-05-22T17:31:10Z)
Self-Steering Language Models [113.96916935955842]
DisCIPLは、"セルフステアリング(self-steering)"言語モデルのメソッドである。 DisCIPLはPlannerモデルを使用してタスク固有の推論プログラムを生成する。我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文参考訳（メタデータ） (2025-04-09T17:54:22Z)
Extracting Formal Specifications from Documents Using LLMs for Automated Testing [11.129512305353055]
正式な仕様を定義する主なアプローチは、ソフトウェア文書のマニュアル分析である。システム更新は、対応する正式な仕様を維持するための人件費をさらに高める。大規模言語モデルの最近の進歩は、自然言語理解において有望な能力を示している。
論文参考訳（メタデータ） (2025-04-02T01:58:11Z)
What is Formal Verification without Specifications? A Survey on mining LTL Specifications [5.655251163654288]
リアクティブシステムのためのデファクト標準仕様言語であるLTL(Linear Temporal Logic)のマイニング仕様の進歩をリストし比較する。いくつかのアプローチは、仕様設計の異なる側面と設定に対処する公式を学習するために設計されている。本研究は,現在の最先端技術について調査し,形式的手法実践者の利便性について比較する。
論文参考訳（メタデータ） (2025-01-27T18:06:48Z)
Towards Specification-Driven LLM-Based Generation of Embedded Automotive Software [0.4369550829556578]
本稿では,LLMによるコード生成と形式検証を組み合わせ,重要な組込みソフトウェアを作成する方法について検討する。目標は、仕様のみから産業品質のコードを自動的に生成することだ。
論文参考訳（メタデータ） (2024-11-20T12:38:17Z)
Genetic Instruct: Scaling up Synthetic Generation of Coding Instructions for Large Language Models [54.51932175059004]
本稿では,大規模言語モデルのコード生成能力を高めるために,合成命令を生成するスケーラブルな手法を提案する。提案したアルゴリズムは進化過程を模倣し、自己インストラクションを利用して限られた数の種子から多数の合成サンプルを生成する。
論文参考訳（メタデータ） (2024-07-29T20:42:59Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
NoviCode: Generating Programs from Natural Language Utterances by Novices [59.71218039095155]
初心者非プログラマによるAPIと自然言語記述を入力とする新しいNLプログラミングタスクであるNoviCodeを提示する。我々は、NoviCodeがコード合成領域における挑戦的なタスクであることを示し、非技術的命令から複雑なコードを生成することは、現在のText-to-Codeパラダイムを超えている。
論文参考訳（メタデータ） (2024-07-15T11:26:03Z)
Towards Large Language Model Aided Program Refinement [10.089955747110444]
プログラムの洗練には、正式なハイレベルな仕様文から実行可能なプログラムへの正当性保存の変換が含まれる。大型言語モデル(LLM)は、非公式な自然言語仕様から自動コード生成を可能にする。 LLM4PRは,形式的プログラム改善手法と非公式なLCMベースの手法を組み合わせたツールである。
論文参考訳（メタデータ） (2024-06-26T04:29:27Z)
Evaluating LLM-driven User-Intent Formalization for Verification-Aware Languages [6.0608817611709735]
本稿では,検証対応言語における仕様の質を評価するための指標を提案する。 MBPPコード生成ベンチマークのDafny仕様の人間ラベル付きデータセットに,我々の測定値が密接に一致することを示す。また、このテクニックをより広く適用するために対処する必要がある正式な検証課題についても概説する。
論文参考訳（メタデータ） (2024-06-14T06:52:08Z)
CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。 CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。 5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文参考訳（メタデータ） (2024-04-24T04:25:04Z)
Enchanting Program Specification Synthesis by Large Language Models using Static Analysis and Program Verification [15.686651364655958]
AutoSpecは、自動プログラム検証のための仕様を合成するための自動化アプローチである。仕様の汎用性における既存の作業の欠点を克服し、完全な証明のために十分かつ適切な仕様を合成する。実世界のX509パーサプロジェクトでプログラムを検証するためにうまく適用することができる。
論文参考訳（メタデータ） (2024-03-31T18:15:49Z)
LLM can Achieve Self-Regulation via Hyperparameter Aware Generation [88.69052513433603]
大規模言語モデル (LLM) は、生成されたテキストを制御するために様々な復号法を用いる。 LLMはこれらのデコード戦略の存在を意識し、自己統制できるのか? ハイパーパラメータ・アウェア・ジェネレーション(HAG)と呼ばれる新しいテキスト生成パラダイムを提案する。
論文参考訳（メタデータ） (2024-02-17T11:18:22Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
Natural Language Processing for Requirements Formalization: How to Derive New Approaches? [0.32885740436059047]
我々はNLPの分野における主要な考え方と最先端の方法論について論じる。我々は2つの異なるアプローチを詳細に議論し、ルールセットの反復的開発を強調した。提案手法は, 自動車分野と鉄道分野の2つの産業分野において実証された。
論文参考訳（メタデータ） (2023-09-23T05:45:19Z)
How Effective are Large Language Models in Generating Software Specifications? [14.170320751508502]
大規模言語モデル(LLM)は多くのソフトウェア工学(SE)タスクにうまく適用されている。ソフトウェアコメントやドキュメンテーションからソフトウェア仕様を生成するためのLCMの能力を評価するための、最初の実証的研究を行う。
論文参考訳（メタデータ） (2023-06-06T00:28:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。