論文の概要: From What to How: Bridging User Requirements with Software Development Using Large Language Models
- arxiv url: http://arxiv.org/abs/2602.13611v1
- Date: Sat, 14 Feb 2026 05:52:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.234945
- Title: From What to How: Bridging User Requirements with Software Development Using Large Language Models
- Title(参考訳): 何からどのように? 大規模言語モデルを用いたソフトウェア開発でユーザ要求をブリッジする
- Authors: Xiao He, Ru Chen, Jialun Cao,
- Abstract要約: 大規模言語モデル (LLM) は開発効率を高めるために広く利用されており、性能評価のためのベンチマークが多数行われている。
本稿では,3 つのソフトウェア設計関連タスク上で LLM を評価するための設計対応ベンチマークである DesBench を提案する。
DesBenchを用いて3つのDeepSeek R1、2つのQwen2.5、2つのGPTモデルを含む7つの最先端LCMを評価した。
- 参考スコア(独自算出の注目度): 6.699393078605002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large language models (LLMs) are extensively utilized to enhance development efficiency, leading to numerous benchmarks for evaluating their performance. However, these benchmarks predominantly focus on implementation, overlooking the equally critical aspect of software design. This gap raises two pivotal questions: (1) Can LLMs handle software design? (2) Can LLMs write code following the specific designs? To investigate these questions, this paper proposes DesBench, a design-aware benchmark for evaluating LLMs on three software design-related tasks: design-aware code generation, object-oriented modeling, and the design of acceptance test cases. DesBench comprises 30 manually crafted Java projects that include requirement documents, design models, implementations, and acceptance tests, amounting to a total of 30 design models, 194 Java classes, and 737 test cases. We evaluated seven state-of-the-art LLMs, including three DeepSeek R1, two Qwen2.5, and two GPT models, using DesBench. The results reveal that LLMs remain significantly challenged by the intricacies of software design: (1) For code generation, LLMs struggle to produce correct implementations when provided with only high-level or no designs. (2) In object-oriented modeling, while LLMs can accurately identify objects and classes, they face challenges in defining operations and inter-class relationships. (3) Acceptance test cases generated by LLMs from functional requirements achieve code coverage quality comparable to those written by humans. Our research highlights the current limitations of LLMs in managing software design and calls for further investigation into new design methodologies and languages suitable for LLM-based development.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) が開発効率を高めるために広く利用されているため,性能評価のためのベンチマークが数多く行われている。
しかし、これらのベンチマークは主に実装に焦点を当てており、ソフトウェア設計の等しく重要な側面を見下ろしている。
1) LLM はソフトウェア設計を扱えるのか?
(2) LLMは特定の設計に従ってコードを書けるか?
そこで本研究では,3つのソフトウェア設計関連タスク(設計対応コード生成,オブジェクト指向モデリング,受入テストケースの設計)上でLLMを評価するための設計対応ベンチマークであるDesBenchを提案する。
DesBenchは、要件文書、設計モデル、実装、受け入れテストを含む30の手作業によるJavaプロジェクトで構成されており、合計30の設計モデル、194のJavaクラス、そして737のテストケースで構成されている。
DesBenchを用いて3つのDeepSeek R1、2つのQwen2.5、2つのGPTモデルを含む7つの最先端LCMを評価した。
1) コード生成において、LLMは高レベルまたは無設計でのみ提供される場合、正しい実装を作成するのに苦労する。
2)オブジェクト指向モデリングでは、LLMはオブジェクトやクラスを正確に識別するが、操作やクラス間の関係を定義する際には課題に直面している。
3) 機能要件からLCMが生成したアクセプタンステストケースは,人間の記述に匹敵するコードカバレッジの品質を実現する。
本研究は、ソフトウェア設計管理におけるLLMの現在の限界を強調し、LLMベースの開発に適した新しい設計手法と言語についてさらなる調査を求めるものである。
関連論文リスト
- On LLM-Assisted Generation of Smart Contracts from Business Processes [0.08192907805418582]
大規模言語モデル(LLM)は、ソフトウェアの生成方法の現実を変えました。
本稿では、ビジネスプロセス記述からスマートコントラクトコードを生成するためのLCMの使用について探索的研究を行う。
以上の結果から,LLMの性能はスマートコントラクト開発に必要な信頼性に劣ることがわかった。
論文 参考訳(メタデータ) (2025-07-30T20:39:45Z) - Beyond Correctness: Benchmarking Multi-dimensional Code Generation for Large Language Models [43.56644186785491]
本稿では,大規模言語モデルが生成するコードの品質を包括的に評価する RACE ベンチマークを提案する。
RACEに基づいて28の代表的なLCMを分析し、現在の正しさ中心のベンチマークでは、実世界のシナリオにおけるコードの多面的要求をキャプチャできないことを発見した。
論文 参考訳(メタデータ) (2024-07-16T08:08:48Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Requirements are All You Need: From Requirements to Code with LLMs [0.0]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクに適用できる。
本稿では,要求文書からコードスニペットを自動生成するLLMについて述べる。
複雑なユーザ要件を解釈し、ロバストな設計とコードソリューションを作成する上で、LCMの熟練度を実証する。
論文 参考訳(メタデータ) (2024-06-14T14:57:35Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - How Effective are Large Language Models in Generating Software Specifications? [14.170320751508502]
大規模言語モデル(LLM)は多くのソフトウェア工学(SE)タスクにうまく適用されている。
ソフトウェアコメントやドキュメンテーションからソフトウェア仕様を生成するためのLCMの能力を評価するための、最初の実証的研究を行う。
論文 参考訳(メタデータ) (2023-06-06T00:28:39Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。