論文の概要: Understanding Specification-Driven Code Generation with LLMs: An Empirical Study Design
- arxiv url: http://arxiv.org/abs/2601.03878v1
- Date: Wed, 07 Jan 2026 12:46:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.510116
- Title: Understanding Specification-Driven Code Generation with LLMs: An Empirical Study Design
- Title(参考訳): LLMによる仕様駆動コード生成の理解:実証的研究設計
- Authors: Giovanni Rosa, David Moreno-Lumbreras, Gregorio Robles, Jesús M. González-Barahona,
- Abstract要約: 大規模言語モデル(LLM)は、ますますソフトウェア開発に統合されているが、構造化された仕様駆動プロセスにおけるそれらの振る舞いは、いまだに理解されていない。
本稿では,LLM支援コード生成のためのヒューマン・イン・ザ・ループ・ワークフローを実現するVisual Studio Code拡張であるCURRANTEを用いた実証的研究設計を提案する。
本研究の目的は,LLM生成コードの品質と力学に人間による介入がどう影響するかを解析することである。
- 参考スコア(独自算出の注目度): 2.687678248171195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly integrated into software development workflows, yet their behavior in structured, specification-driven processes remains poorly understood. This paper presents an empirical study design using CURRANTE, a Visual Studio Code extension that enables a human-in-the-loop workflow for LLM-assisted code generation. The tool guides developers through three sequential stages--Specification, Tests, and Function--allowing them to define requirements, generate and refine test suites, and produce functions that satisfy those tests. Participants will solve medium-difficulty problems from the LiveCodeBench dataset, while the tool records fine-grained interaction logs, effectiveness metrics (e.g., pass rate, all-pass completion), efficiency indicators (e.g., time-to-pass), and iteration behaviors. The study aims to analyze how human intervention in specification and test refinement influences the quality and dynamics of LLM-generated code. The results will provide empirical insights into the design of next-generation development environments that align human reasoning with model-driven code generation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ますますソフトウェア開発ワークフローに統合されているが、構造化された仕様駆動プロセスにおけるそれらの振る舞いは、まだ理解されていない。
本稿では,LLM支援コード生成のためのヒューマン・イン・ザ・ループ・ワークフローを実現するVisual Studio Code拡張であるCURRANTEを用いた実証的研究設計を提案する。
このツールは、要件を定義し、テストスイートを生成して洗練し、それらのテストを満たす関数を生成するために、開発者を3つのシーケンシャルなステージ - 仕様、テスト、ファンクション – を通じてガイドする。
参加者はLiveCodeBenchデータセットから、詳細なインタラクションログ、評価指標(例えば、パスレート、全パス完了)、効率指標(例えば、タイム・トゥ・パス)、イテレーションの振る舞いを記録できる。
本研究の目的は,LLM生成コードの品質と力学に人間による介入がどう影響するかを解析することである。
結果は、人間の推論とモデル駆動コード生成を一致させる次世代開発環境の設計に関する実証的な洞察を提供する。
関連論文リスト
- From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。
コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。
一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文 参考訳(メタデータ) (2025-11-23T17:09:34Z) - On LLM-Assisted Generation of Smart Contracts from Business Processes [0.08192907805418582]
大規模言語モデル(LLM)は、ソフトウェアの生成方法の現実を変えました。
本稿では、ビジネスプロセス記述からスマートコントラクトコードを生成するためのLCMの使用について探索的研究を行う。
以上の結果から,LLMの性能はスマートコントラクト開発に必要な信頼性に劣ることがわかった。
論文 参考訳(メタデータ) (2025-07-30T20:39:45Z) - CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [20.013757490442064]
タスク指向の命令に準拠する大規模言語モデル(LLM)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。
CodeIFは関数合成、アルゴリズム命令、コード説明など幅広いタスクを含んでいる。
我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文 参考訳(メタデータ) (2025-02-26T14:19:49Z) - SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors [7.210032327838313]
大規模言語モデル(LLM)がコード実行予測の代理モデルとして機能するかどうかを検討する。
オープンソースおよびプロプライエタリ LLM の広範な分析を通じて,スケーリング法則,データ効率,予測精度について検討する。
計算機処理における効率的なサロゲートとしてのLCMの実現可能性に関する重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-02-16T15:38:19Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。