論文の概要: Using LLMs in Software Requirements Specifications: An Empirical Evaluation
- arxiv url: http://arxiv.org/abs/2404.17842v1
- Date: Sat, 27 Apr 2024 09:37:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 19:01:27.410837
- Title: Using LLMs in Software Requirements Specifications: An Empirical Evaluation
- Title(参考訳): ソフトウェア要件仕様におけるLCMの使用:実証的評価
- Authors: Madhava Krishna, Bhagesh Gaur, Arsh Verma, Pankaj Jalote,
- Abstract要約: ソフトウェア要件仕様のドラフト作成におけるGPT-4とCodeLlamaの性能を評価する。
この結果から,LSMはエントリーレベルのソフトウェア技術者の出力品質と一致し,SRSを生成できることが示唆された。
LLMは、生産性を向上させるために、ソフトウェアエンジニアによって有利に使用できると結論付けています。
- 参考スコア(独自算出の注目度): 0.2812395851874055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The creation of a Software Requirements Specification (SRS) document is important for any software development project. Given the recent prowess of Large Language Models (LLMs) in answering natural language queries and generating sophisticated textual outputs, our study explores their capability to produce accurate, coherent, and structured drafts of these documents to accelerate the software development lifecycle. We assess the performance of GPT-4 and CodeLlama in drafting an SRS for a university club management system and compare it against human benchmarks using eight distinct criteria. Our results suggest that LLMs can match the output quality of an entry-level software engineer to generate an SRS, delivering complete and consistent drafts. We also evaluate the capabilities of LLMs to identify and rectify problems in a given requirements document. Our experiments indicate that GPT-4 is capable of identifying issues and giving constructive feedback for rectifying them, while CodeLlama's results for validation were not as encouraging. We repeated the generation exercise for four distinct use cases to study the time saved by employing LLMs for SRS generation. The experiment demonstrates that LLMs may facilitate a significant reduction in development time for entry-level software engineers. Hence, we conclude that the LLMs can be gainfully used by software engineers to increase productivity by saving time and effort in generating, validating and rectifying software requirements.
- Abstract(参考訳): ソフトウェア要件仕様(SRS)文書の作成は、あらゆるソフトウェア開発プロジェクトにとって重要である。
近年のLarge Language Models(LLMs)が自然言語クエリに応答し、洗練されたテキスト出力を生成するのに長けていることを踏まえ、本研究では、これらのドキュメントの正確で一貫性があり構造化されたドラフトを作成する能力について検討し、ソフトウェア開発ライフサイクルを加速させる。
GPT-4 と CodeLlama の大学部経営システム用 SRS のドラフト作成における性能を評価し、8 つの異なる基準を用いて人体ベンチマークと比較した。
この結果から,LSMはエントリーレベルのソフトウェア技術者の出力品質と一致してSRSを生成し,完全かつ一貫したドラフトを作成できることが示唆された。
また、所与の要件文書における問題を特定し、修正するLLMの能力についても評価する。
実験の結果, GPT-4は問題を特定し, 修正のための建設的フィードバックを与えることができることがわかったが, CodeLlama の検証結果はそれほど奨励的ではなかった。
SRS 生成に LLM を用いて保存した時間を4つの異なるユースケースに分けて検討した。
この実験は、LSMがエントリーレベルのソフトウェアエンジニアの開発時間を著しく短縮することを示した。
したがって、LLMは、ソフトウェア要件の生成、検証、修正に要する時間と労力を節約し、生産性を向上させるために、ソフトウェアエンジニアによって有利に使用できると結論付けます。
関連論文リスト
- Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。
ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。
次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文 参考訳(メタデータ) (2024-11-29T12:21:15Z) - A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Models [11.087034068992653]
FAUN-Eval は LLM の Fine-grAined issUe solviNg 機能を評価するために特別に設計されたベンチマークである。
30の有名なGitHubリポジトリからキュレートされたデータセットを使って構築されている。
FAUN-Evalでは,4つのクローズドソースモデルと6つのオープンソースモデルを含む10個のLLMを評価した。
論文 参考訳(メタデータ) (2024-11-27T03:25:44Z) - Studying and Benchmarking Large Language Models For Log Level Suggestion [49.176736212364496]
大規模言語モデル(LLM)は、様々な領域で研究の焦点となっている。
本稿では,12個のオープンソースLCMのログレベル提案における性能に及ぼす特性と学習パラダイムの影響について検討する。
論文 参考訳(メタデータ) (2024-10-11T03:52:17Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Requirements are All You Need: From Requirements to Code with LLMs [0.0]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクに適用できる。
本稿では,要求文書からコードスニペットを自動生成するLLMについて述べる。
複雑なユーザ要件を解釈し、ロバストな設計とコードソリューションを作成する上で、LCMの熟練度を実証する。
論文 参考訳(メタデータ) (2024-06-14T14:57:35Z) - Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。
DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。
GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - Copilot Evaluation Harness: Evaluating LLM-Guided Software Programming [12.355284125578342]
大規模言語モデル(LLM)は、現代のソフトウェア開発の焦点となっている。
LLMは、インテリジェントでチャット駆動のプログラミングアシスタントとして機能することで、開発者の生産性を大幅に向上する可能性がある。
しかし、それぞれのシステムは、最高のパフォーマンスを確保するために、LLMをそのワークスペースに向ける必要がある。
論文 参考訳(メタデータ) (2024-02-22T03:51:34Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Towards an Understanding of Large Language Models in Software Engineering Tasks [29.30433406449331]
大規模言語モデル(LLM)は、テキスト生成や推論タスクにおける驚くべきパフォーマンスのために、広く注目を集め、研究している。
コード生成などのソフトウェア工学タスクにおけるLLMの評価と最適化が研究の焦点となっている。
本稿では,LLMとソフトウェア工学を組み合わせた研究・製品について包括的に検討・検討する。
論文 参考訳(メタデータ) (2023-08-22T12:37:29Z) - Software Testing with Large Language Models: Survey, Landscape, and
Vision [32.34617250991638]
事前訓練された大規模言語モデル(LLM)は、自然言語処理と人工知能におけるブレークスルー技術として登場した。
本稿では,ソフトウェアテストにおけるLCMの利用状況について概説する。
論文 参考訳(メタデータ) (2023-07-14T08:26:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。