論文の概要: LLM-Assisted Repository-Level Generation with Structured Spec-Driven Engineering
- arxiv url: http://arxiv.org/abs/2605.02455v1
- Date: Mon, 04 May 2026 10:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.248737
- Title: LLM-Assisted Repository-Level Generation with Structured Spec-Driven Engineering
- Title(参考訳): 構造化スペック駆動工学を用いたLCM支援レポジトリレベル生成
- Authors: Shuzhao Feng, Boqi Chen, Brett H Meyer, Gunter Mussbacher,
- Abstract要約: State-of-the-art Large Language Models (LLMs) は関数レベルでコード生成に優れるが、リポジトリレベルのシステムにスケールすると出力品質が大幅に低下する。
これを解決するために、構造化スペック駆動工学(SSDE)を提案する。
LLM入力として構造化された仕様は、優れた妥当性を提供すると同時に、高品質でリポジトリレベルのコード生成を明確な目標とします。
- 参考スコア(独自算出の注目度): 4.751657370831477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art Large Language Models (LLMs) excel in code generation at the function level. However, the output quality significantly declines when scaling to repository-level systems. Current workflows relying only on natural language prompts suffer from inherent ambiguity and a lack of verifiability. To address this, we propose structured spec-driven engineering (SSDE), a paradigm that leverages structured artifacts to guide LLM generation. We argue that structured specifications as LLM inputs make high-quality, repository-level code generation a tangible goal, while at the same time offering superior verifiability, leading to significant potential for improvement. We first investigate the feasibility of this vision through a pilot study generating Model-View-Controller (MVC) business logic for three software systems using five LLMs, and then highlight the potential, challenges, and future roadmap for SSDE.
- Abstract(参考訳): State-of-the-art Large Language Models (LLM) は関数レベルでコード生成に優れる。
しかし、リポジトリレベルのシステムへのスケーリングでは、出力品質が大幅に低下する。
現在のワークフローは、自然言語のプロンプトにのみ依存しており、固有の曖昧さと妥当性の欠如に悩まされている。
そこで本研究では、構造化されたアーティファクトを活用してLCM生成を誘導するパラダイムである、構造化スペック駆動エンジニアリング(SSDE)を提案する。
LLM入力として構造化された仕様は、高品質でリポジトリレベルのコード生成を具体的目標としつつ、優れた検証性を提供し、改善の可能性を秘めている、と我々は主張する。
まず,5つのLCMを用いた3つのソフトウェアシステムに対して,MVC(Model-View-Controller)ビジネスロジックを生成するパイロットスタディにより,このビジョンの実現可能性について検討し,SSDEの可能性,課題,今後のロードマップを明らかにする。
関連論文リスト
- RealBench: A Repo-Level Code Generation Benchmark Aligned with Real-World Software Development Practices [54.956760584923295]
コード生成にLLM(Large Language Models)を使用することで、研究者は大幅に進歩した。
しかしながら、開発者は一般的に、生の自然言語記述ではなく、構造化された設計や仕様に基づいたコードを書く。
既存のベンチマークと実際の産業開発プラクティスのギャップは、現在のベンチマークスコアが、どれだけのコード生成が開発タスクの自動化に役立つかを正確に反映していないことを意味する。
論文 参考訳(メタデータ) (2026-04-24T15:35:54Z) - Beyond Basic Specifications? A Systematic Study of Logical Constructs in LLM-based Specification Generation [29.231420590756954]
プログラム仕様の自動生成のための大規模言語モデル(LLM)は、検証効率を向上させるための有望な道として登場した。
既存の LLM 仕様生成フレームワークに論理構造を組み込むことを提案する。
我々は,様々な種類の構文構造が仕様生成フレームワークに与える影響について,実証的研究を行った。
論文 参考訳(メタデータ) (2026-01-31T13:19:40Z) - How Effective are Generative Large Language Models in Performing Requirements Classification? [4.429729688079712]
本研究では,2次および複数クラスの要件分類を行う3つの生成的大規模言語モデル(LLM)の有効性について検討した。
我々の研究は、素早い設計やLLMアーキテクチャといった要因は普遍的に重要であるが、データセットのバリエーションなどの要因は、分類作業の複雑さに応じて、より状況に影響を及ぼすと結論付けている。
論文 参考訳(メタデータ) (2025-04-23T14:41:11Z) - CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [20.013757490442064]
タスク指向の命令に準拠する大規模言語モデル(LLM)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。
CodeIFは関数合成、アルゴリズム命令、コード説明など幅広いタスクを含んでいる。
我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文 参考訳(メタデータ) (2025-02-26T14:19:49Z) - Exploring Code Language Models for Automated HLS-based Hardware Generation: Benchmark, Infrastructure and Analysis [14.458529723566379]
LLM(Large Language Model)は、PythonやC++などのプログラミング言語に使用される。
本稿では,LLMを利用してHLS(High-Level Synthesis)ベースのハードウェア設計を行う。
論文 参考訳(メタデータ) (2025-02-19T17:53:59Z) - HiVeGen -- Hierarchical LLM-based Verilog Generation for Scalable Chip Design [24.46771930751068]
HiVeGenは階層的なVerilog生成フレームワークで、生成タスクを階層的なサブモジュールに分解する。
自動設計空間探索(DSE)を階層対応のプロンプト生成に変換し、コードの再利用を強化するために重みに基づく検索を導入する。
エラー補正コストを低減し、生成した設計の質を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-06T19:37:53Z) - FVEval: Understanding Language Model Capabilities in Formal Verification of Digital Hardware [4.480157114854711]
FVEvalは,形式的検証(FV)に関わるタスクにおいて,大規模言語モデル(LLM)のパフォーマンスを特徴付ける最初の総合ベンチマークである。
ベンチマークは3つのサブタスクで構成され、異なるレベルでLLM能力を測定する。
本稿では,FVに整合した合成例を生成するための,専門家による検証手法と手法のコレクションについて述べる。
論文 参考訳(メタデータ) (2024-10-15T21:48:57Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。