論文の概要: Automated Non-Functional Requirements Generation in Software Engineering with Large Language Models: A Comparative Study
- arxiv url: http://arxiv.org/abs/2503.15248v1
- Date: Wed, 19 Mar 2025 14:23:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:26:03.353088
- Title: Automated Non-Functional Requirements Generation in Software Engineering with Large Language Models: A Comparative Study
- Title(参考訳): 大規模言語モデルを用いたソフトウェア工学における自動ノンファンクション要求生成 : 比較研究
- Authors: Jomar Thomas Almonte, Santhosh Anitha Boominathan, Nathalia Nascimento,
- Abstract要約: 非機能要件(NFR)はしばしば見過ごされ、識別が難しく、ソフトウェアの品質に影響を与えます。
我々は、LLM(Large Language Models)を活用して、機能要件(FR)から品質駆動型NFRを導出するフレームワークを開発した。
Denoベースのパイプライン内で独自のプロンプト技術を使用して、システムは機能要件ごとに関連する品質特性を特定し、対応するNFRを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Neglecting non-functional requirements (NFRs) early in software development can lead to critical challenges. Despite their importance, NFRs are often overlooked or difficult to identify, impacting software quality. To support requirements engineers in eliciting NFRs, we developed a framework that leverages Large Language Models (LLMs) to derive quality-driven NFRs from functional requirements (FRs). Using a custom prompting technique within a Deno-based pipeline, the system identifies relevant quality attributes for each functional requirement and generates corresponding NFRs, aiding systematic integration. A crucial aspect is evaluating the quality and suitability of these generated requirements. Can LLMs produce high-quality NFR suggestions? Using 34 functional requirements - selected as a representative subset of 3,964 FRs-the LLMs inferred applicable attributes based on the ISO/IEC 25010:2023 standard, generating 1,593 NFRs. A horizontal evaluation covered three dimensions: NFR validity, applicability of quality attributes, and classification precision. Ten industry software quality evaluators, averaging 13 years of experience, assessed a subset for relevance and quality. The evaluation showed strong alignment between LLM-generated NFRs and expert assessments, with median validity and applicability scores of 5.0 (means: 4.63 and 4.59, respectively) on a 1-5 scale. In the classification task, 80.4% of LLM-assigned attributes matched expert choices, with 8.3% near misses and 11.3% mismatches. A comparative analysis of eight LLMs highlighted variations in performance, with gemini-1.5-pro exhibiting the highest attribute accuracy, while llama-3.3-70B achieved higher validity and applicability scores. These findings provide insights into the feasibility of using LLMs for automated NFR generation and lay the foundation for further exploration of AI-assisted requirements engineering.
- Abstract(参考訳): ソフトウェア開発の初期段階で非機能要件(NFR)を無視することは、重大な問題を引き起こす可能性がある。
その重要性にもかかわらず、NFRはしばしば見過ごされ、識別するのが難しく、ソフトウェアの品質に影響を与えます。
NFRを抽出する際の要件エンジニアを支援するため,我々はLarge Language Models(LLMs)を活用して,機能要件(FRs)から品質駆動型NFRを導出するフレームワークを開発した。
Denoベースのパイプライン内で独自のプロンプト技術を使用して、システムは機能要件ごとに関連する品質特性を特定し、対応するNFRを生成し、体系的な統合を支援する。
重要な側面は、生成された要求の品質と適合性を評価することです。
LLMは高品質なNFRを提案することができるか?
34個の機能要件を使用して、3,964個のFRの代表的なサブセットとして選択され、LLMはISO/IEC 25010:2023標準に基づいて適用可能な属性を推定し、1,593個のNFRを生成した。
水平評価は,NFR妥当性,品質特性の適用性,分類精度の3つの側面を網羅した。
10の業界ソフトウェア品質評価者(平均13年の経験)は、関連性と品質のサブセットを評価した。
評価の結果, LLM生成NFRと専門家評価の相関が強く, 正当性は5.0(平均4.63点, 適用性は4.59点, 平均5.0点)であった。
分類作業では、LSMに割り当てられた属性の80.4%が専門家の選択と一致し、8.3%がミス、11.3%がミスマッチだった。
8つのLCMの比較分析では、ジェミニ-1.5-プロは最も高い属性精度を示し、ラマ-3.3-70Bは高い妥当性と適用性を示した。
これらの知見は、自動NFR生成にLLMを使用することの実現可能性に関する洞察を与え、AI支援要求工学のさらなる探求の基礎を築いた。
関連論文リスト
- EquiBench: Benchmarking Code Reasoning Capabilities of Large Language Models via Equivalence Checking [54.354203142828084]
本稿では,大規模言語モデルのコード推論能力を評価する新しい手法として等価チェックの課題を提案する。
EquiBenchは、4つのプログラミング言語と6つの等価カテゴリにまたがる2400のプログラムペアのデータセットである。
その結果,OpenAI o3-miniの精度は78.0%と高いことがわかった。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - Analysis of LLMs vs Human Experts in Requirements Engineering [0.0]
大規模言語モデル(LLM)のソフトウェア開発への応用は、コード生成のテーマとなっている。
本研究は, LLMがソフトウェアシステムの要件を抽出する能力と, タイムボックス型およびプロンプトボックス型研究における人間専門家の要求とを比較した。
論文 参考訳(メタデータ) (2025-01-31T16:55:17Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - AttackQA: Development and Adoption of a Dataset for Assisting Cybersecurity Operations using Fine-tuned and Open-Source LLMs [0.0]
大規模言語モデル(LLM)は、ユーザクエリに対する応答を生成するために微調整される。
本研究では,AttackQAと呼ばれるサイバーセキュリティ質問応答(Q&A)データセットを開発する。
我々は、セキュリティオペレーションセンターのアナリスト向けに設計されたRAGベースのQ&Aシステムを構築するためにそれを利用している。
論文 参考訳(メタデータ) (2024-11-01T23:03:40Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - A Fuzzy Logic-Based Quality Model For Identifying Microservices With Low Maintainability [0.0]
本稿ではファジィ論理に基づく階層的品質モデルを提案する。
ファジフィケーション手法を用いて、コードメトリクスの鮮明な値をファジィレベルに変換し、それらを品質モデルへのインプットとして適用します。
論文 参考訳(メタデータ) (2024-06-20T16:53:37Z) - FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。
本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文 参考訳(メタデータ) (2024-02-28T19:23:27Z) - Large Language Models as Automated Aligners for benchmarking
Vision-Language Models [48.4367174400306]
VLM(Vision-Language Models)は新しいレベルの高度化に達し、複雑な認知と推論タスクの実行において顕著な能力を示している。
既存の評価ベンチマークは、厳密で手作りのデータセットを主に頼りにしており、人為的なモデルと人間の知性との整合性を評価する上で、重大な制限に直面している。
本研究では,LLMを有能なキュレーションとして探求し,自動データキュレーションとアセスメントによってVLMと人間の知性と価値のアライメントを測定するAuto-Benchを用いて,その限界に対処する。
論文 参考訳(メタデータ) (2023-11-24T16:12:05Z) - On Systematically Building a Controlled Natural Language for Functional
Requirements [2.9676973500772887]
自然言語(NL)は、ソフトウェア要件仕様(SRS)において広く普及している。
その人気と広く使われているにもかかわらず、NLはあいまいさ、曖昧さ、不完全さといった品質の問題に高い傾向にある。
要求文書の品質問題を防止する手段として,制御自然言語(CNL)が提案されている。
論文 参考訳(メタデータ) (2020-05-04T09:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。