Fugu-MT 論文翻訳(概要): Using LLMs in Software Requirements Specifications: An Empirical Evaluation

論文の概要: Using LLMs in Software Requirements Specifications: An Empirical Evaluation

arxiv url: http://arxiv.org/abs/2404.17842v1
Date: Sat, 27 Apr 2024 09:37:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-30 19:01:27.410837
Title: Using LLMs in Software Requirements Specifications: An Empirical Evaluation
Title（参考訳）: ソフトウェア要件仕様におけるLCMの使用:実証的評価
Authors: Madhava Krishna, Bhagesh Gaur, Arsh Verma, Pankaj Jalote,
Abstract要約: ソフトウェア要件仕様のドラフト作成におけるGPT-4とCodeLlamaの性能を評価する。この結果から,LSMはエントリーレベルのソフトウェア技術者の出力品質と一致し,SRSを生成できることが示唆された。 LLMは、生産性を向上させるために、ソフトウェアエンジニアによって有利に使用できると結論付けています。
参考スコア（独自算出の注目度）: 0.2812395851874055
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The creation of a Software Requirements Specification (SRS) document is important for any software development project. Given the recent prowess of Large Language Models (LLMs) in answering natural language queries and generating sophisticated textual outputs, our study explores their capability to produce accurate, coherent, and structured drafts of these documents to accelerate the software development lifecycle. We assess the performance of GPT-4 and CodeLlama in drafting an SRS for a university club management system and compare it against human benchmarks using eight distinct criteria. Our results suggest that LLMs can match the output quality of an entry-level software engineer to generate an SRS, delivering complete and consistent drafts. We also evaluate the capabilities of LLMs to identify and rectify problems in a given requirements document. Our experiments indicate that GPT-4 is capable of identifying issues and giving constructive feedback for rectifying them, while CodeLlama's results for validation were not as encouraging. We repeated the generation exercise for four distinct use cases to study the time saved by employing LLMs for SRS generation. The experiment demonstrates that LLMs may facilitate a significant reduction in development time for entry-level software engineers. Hence, we conclude that the LLMs can be gainfully used by software engineers to increase productivity by saving time and effort in generating, validating and rectifying software requirements.
Abstract（参考訳）: ソフトウェア要件仕様(SRS)文書の作成は、あらゆるソフトウェア開発プロジェクトにとって重要である。近年のLarge Language Models(LLMs)が自然言語クエリに応答し、洗練されたテキスト出力を生成するのに長けていることを踏まえ、本研究では、これらのドキュメントの正確で一貫性があり構造化されたドラフトを作成する能力について検討し、ソフトウェア開発ライフサイクルを加速させる。 GPT-4 と CodeLlama の大学部経営システム用 SRS のドラフト作成における性能を評価し、8 つの異なる基準を用いて人体ベンチマークと比較した。この結果から,LSMはエントリーレベルのソフトウェア技術者の出力品質と一致してSRSを生成し,完全かつ一貫したドラフトを作成できることが示唆された。また、所与の要件文書における問題を特定し、修正するLLMの能力についても評価する。実験の結果, GPT-4は問題を特定し, 修正のための建設的フィードバックを与えることができることがわかったが, CodeLlama の検証結果はそれほど奨励的ではなかった。 SRS 生成に LLM を用いて保存した時間を4つの異なるユースケースに分けて検討した。この実験は、LSMがエントリーレベルのソフトウェアエンジニアの開発時間を著しく短縮することを示した。したがって、LLMは、ソフトウェア要件の生成、検証、修正に要する時間と労力を節約し、生産性を向上させるために、ソフトウェアエンジニアによって有利に使用できると結論付けます。

関連論文リスト

LLMs' Reshaping of People, Processes, Products, and Society in Software Development: A Comprehensive Exploration with Early Adopters [3.4069804433026314]
OpenAI ChatGPT、Google Gemini、GitHub Copilotといった大規模言語モデル(LLM)は、ソフトウェア業界で急速に注目を集めている。私たちの研究は、LLMがソフトウェア開発のランドスケープをどう形作っているのか、微妙に理解しています。
論文参考訳（メタデータ） (2025-03-06T22:27:05Z)
Assessing LLMs for Front-end Software Architecture Knowledge [0.0]
大規模言語モデル(LLM)は、ソフトウェア開発タスクの自動化において大きな可能性を証明している。本研究では,VIPER アーキテクチャ内の構造を理解し,再現し,生成する LLM の機能について検討する。実験の結果、ChatGPT 4 Turbo 2024-04-09 を用いて、LLM は評価や作成といった高次タスクに優れていたが、アーキテクチャの詳細の正確な検索を必要とする低次タスクでは課題に直面していたことが明らかとなった。
論文参考訳（メタデータ） (2025-02-26T19:33:35Z)
Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文参考訳（メタデータ） (2024-11-29T12:21:15Z)
A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Models [11.087034068992653]
FAUN-Eval は LLM の Fine-grAined issUe solviNg 機能を評価するために特別に設計されたベンチマークである。 30の有名なGitHubリポジトリからキュレートされたデータセットを使って構築されている。 FAUN-Evalでは,4つのクローズドソースモデルと6つのオープンソースモデルを含む10個のLLMを評価した。
論文参考訳（メタデータ） (2024-11-27T03:25:44Z)
Studying and Benchmarking Large Language Models For Log Level Suggestion [49.176736212364496]
大規模言語モデル(LLM)は、様々な領域で研究の焦点となっている。本稿では,12個のオープンソースLCMのログレベル提案における性能に及ぼす特性と学習パラダイムの影響について検討する。
論文参考訳（メタデータ） (2024-10-11T03:52:17Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Requirements are All You Need: From Requirements to Code with LLMs [0.0]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクに適用できる。本稿では,要求文書からコードスニペットを自動生成するLLMについて述べる。複雑なユーザ要件を解釈し、ロバストな設計とコードソリューションを作成する上で、LCMの熟練度を実証する。
論文参考訳（メタデータ） (2024-06-14T14:57:35Z)
Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。 DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。 GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文参考訳（メタデータ） (2024-03-13T15:13:44Z)
PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。 GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文参考訳（メタデータ） (2024-03-06T15:33:32Z)
Copilot Evaluation Harness: Evaluating LLM-Guided Software Programming [12.355284125578342]
大規模言語モデル(LLM)は、現代のソフトウェア開発の焦点となっている。 LLMは、インテリジェントでチャット駆動のプログラミングアシスタントとして機能することで、開発者の生産性を大幅に向上する可能性がある。しかし、それぞれのシステムは、最高のパフォーマンスを確保するために、LLMをそのワークスペースに向ける必要がある。
論文参考訳（メタデータ） (2024-02-22T03:51:34Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Testing LLMs on Code Generation with Varying Levels of Prompt Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文参考訳（メタデータ） (2023-11-10T23:41:41Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
Towards an Understanding of Large Language Models in Software Engineering Tasks [29.30433406449331]
大規模言語モデル(LLM)は、テキスト生成や推論タスクにおける驚くべきパフォーマンスのために、広く注目を集め、研究している。コード生成などのソフトウェア工学タスクにおけるLLMの評価と最適化が研究の焦点となっている。本稿では,LLMとソフトウェア工学を組み合わせた研究・製品について包括的に検討・検討する。
論文参考訳（メタデータ） (2023-08-22T12:37:29Z)
Software Testing with Large Language Models: Survey, Landscape, and Vision [32.34617250991638]
事前訓練された大規模言語モデル(LLM)は、自然言語処理と人工知能におけるブレークスルー技術として登場した。本稿では,ソフトウェアテストにおけるLCMの利用状況について概説する。
論文参考訳（メタデータ） (2023-07-14T08:26:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。