Fugu-MT 論文翻訳(概要): Automated Non-Functional Requirements Generation in Software Engineering with Large Language Models: A Comparative Study

論文の概要: Automated Non-Functional Requirements Generation in Software Engineering with Large Language Models: A Comparative Study

arxiv url: http://arxiv.org/abs/2503.15248v1
Date: Wed, 19 Mar 2025 14:23:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-20 17:45:40.98853
Title: Automated Non-Functional Requirements Generation in Software Engineering with Large Language Models: A Comparative Study
Title（参考訳）: 大規模言語モデルを用いたソフトウェア工学における自動ノンファンクション要求生成 : 比較研究
Authors: Jomar Thomas Almonte, Santhosh Anitha Boominathan, Nathalia Nascimento,
Abstract要約: 非機能要件(NFR)はしばしば見過ごされ、識別が難しく、ソフトウェアの品質に影響を与えます。我々は、LLM(Large Language Models)を活用して、機能要件(FR)から品質駆動型NFRを導出するフレームワークを開発した。 Denoベースのパイプライン内で独自のプロンプト技術を使用して、システムは機能要件ごとに関連する品質特性を特定し、対応するNFRを生成する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neglecting non-functional requirements (NFRs) early in software development can lead to critical challenges. Despite their importance, NFRs are often overlooked or difficult to identify, impacting software quality. To support requirements engineers in eliciting NFRs, we developed a framework that leverages Large Language Models (LLMs) to derive quality-driven NFRs from functional requirements (FRs). Using a custom prompting technique within a Deno-based pipeline, the system identifies relevant quality attributes for each functional requirement and generates corresponding NFRs, aiding systematic integration. A crucial aspect is evaluating the quality and suitability of these generated requirements. Can LLMs produce high-quality NFR suggestions? Using 34 functional requirements - selected as a representative subset of 3,964 FRs-the LLMs inferred applicable attributes based on the ISO/IEC 25010:2023 standard, generating 1,593 NFRs. A horizontal evaluation covered three dimensions: NFR validity, applicability of quality attributes, and classification precision. Ten industry software quality evaluators, averaging 13 years of experience, assessed a subset for relevance and quality. The evaluation showed strong alignment between LLM-generated NFRs and expert assessments, with median validity and applicability scores of 5.0 (means: 4.63 and 4.59, respectively) on a 1-5 scale. In the classification task, 80.4% of LLM-assigned attributes matched expert choices, with 8.3% near misses and 11.3% mismatches. A comparative analysis of eight LLMs highlighted variations in performance, with gemini-1.5-pro exhibiting the highest attribute accuracy, while llama-3.3-70B achieved higher validity and applicability scores. These findings provide insights into the feasibility of using LLMs for automated NFR generation and lay the foundation for further exploration of AI-assisted requirements engineering.
Abstract（参考訳）: ソフトウェア開発の初期段階で非機能要件(NFR)を無視することは、重大な問題を引き起こす可能性がある。その重要性にもかかわらず、NFRはしばしば見過ごされ、識別するのが難しく、ソフトウェアの品質に影響を与えます。 NFRを抽出する際の要件エンジニアを支援するため,我々はLarge Language Models(LLMs)を活用して,機能要件(FRs)から品質駆動型NFRを導出するフレームワークを開発した。 Denoベースのパイプライン内で独自のプロンプト技術を使用して、システムは機能要件ごとに関連する品質特性を特定し、対応するNFRを生成し、体系的な統合を支援する。重要な側面は、生成された要求の品質と適合性を評価することです。 LLMは高品質なNFRを提案することができるか? 34個の機能要件を使用して、3,964個のFRの代表的なサブセットとして選択され、LLMはISO/IEC 25010:2023標準に基づいて適用可能な属性を推定し、1,593個のNFRを生成した。水平評価は,NFR妥当性,品質特性の適用性,分類精度の3つの側面を網羅した。 10の業界ソフトウェア品質評価者(平均13年の経験)は、関連性と品質のサブセットを評価した。評価の結果, LLM生成NFRと専門家評価の相関が強く, 正当性は5.0(平均4.63点, 適用性は4.59点, 平均5.0点)であった。分類作業では、LSMに割り当てられた属性の80.4%が専門家の選択と一致し、8.3%がミス、11.3%がミスマッチだった。 8つのLCMの比較分析では、ジェミニ-1.5-プロは最も高い属性精度を示し、ラマ-3.3-70Bは高い妥当性と適用性を示した。これらの知見は、自動NFR生成にLLMを使用することの実現可能性に関する洞察を与え、AI支援要求工学のさらなる探求の基礎を築いた。

関連論文リスト

LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。 LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。 LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文参考訳（メタデータ） (2025-08-07T14:46:30Z)
Classification of Quality Characteristics in Online User Feedback using Linguistic Analysis, Crowdsourcing and LLMs [0.9565934024763957]
オンラインユーザからのフィードバックは、ソフトウェア製品に対する品質関連のフィードバックの貴重な情報源です。オンラインユーザからのフィードバックが多ければ多いほど、品質特性の自動識別が保証される。低データ設定に有効な3つのアプローチの有効性について検討する。
論文参考訳（メタデータ） (2025-06-13T12:37:07Z)
Structuring Radiology Reports: Challenging LLMs with Lightweight Models [5.01440254761063]
大規模言語モデル(LLM)は、臨床テキストの再構築、高い計算要求、透明性の欠如、データプライバシに関する懸念が現実的な展開を妨げていることを示す。我々は,MIMIC-CXRおよびCheXpert Plusデータセットからの放射線学レポートを構造化するために,軽量エンコーダデコーダモデル(300Mパラメータ)を特にT5およびBERT2BERTで検討する。我々の最良性能軽量モデルは、人間による注釈付きテストセット上で、プロンプトベースの手法で適応された全てのLCMより優れています。
論文参考訳（メタデータ） (2025-05-30T20:12:51Z)
ReqBrain: Task-Specific Instruction Tuning of LLMs for AI-Assisted Requirements Generation [4.475603469482274]
ソフトウェアエンジニアはチャットベースのセッションを通じてReqBrainと関わり、ソフトウェア要件を自動的に生成できる。最高性能のZephyr-7b-betaは、BERTスコアとFRUGALスコアを使用して89.30%のFlを達成した。
論文参考訳（メタデータ） (2025-05-23T08:45:46Z)
From Inductive to Deductive: LLMs-Based Qualitative Data Analysis in Requirements Engineering [0.7874708385247352]
本稿では,Large Language Models (LLMs) を用いた要件工学(RE)における定性的データ解析タスクの改善について検討する。我々は, GPT-4 が人間アナリストと有意に一致していることを示し, Cohen の Kappa スコアは 0.7 を超え, ゼロショット性能は依然として制限されている。これらの知見は,アノテーションの品質を維持しつつ手作業の軽減により,REにおけるQDAをサポートするLLMの可能性を強調した。
論文参考訳（メタデータ） (2025-04-27T23:21:52Z)
RobuNFR: Evaluating the Robustness of Large Language Models on Non-Functional Requirements Aware Code Generation [52.87427601131587]
NFR対応コード生成におけるLLMのロバスト性を評価するため,RobuNFRを提案する。実験の結果,コード生成におけるNFRを考慮した場合,RobuNFRは試験LLMの問題を明らかにすることがわかった。
論文参考訳（メタデータ） (2025-03-28T20:05:33Z)
AutoLogi: Automated Generation of Logic Puzzles for Evaluating Reasoning Abilities of Large Language Models [86.83875864328984]
本稿では,オープンエンド論理パズルを自動合成する手法を提案し,それをバイリンガルベンチマークであるAutoLogiの開発に利用する。提案手法は,プログラムベースの検証と制御可能な難易度を特徴とし,モデルの推論能力をよりよく区別する信頼性の高い評価を可能にする。
論文参考訳（メタデータ） (2025-02-24T07:02:31Z)
Analysis of LLMs vs Human Experts in Requirements Engineering [0.0]
大規模言語モデル(LLM)のソフトウェア開発への応用は、コード生成のテーマとなっている。本研究は, LLMがソフトウェアシステムの要件を抽出する能力と, タイムボックス型およびプロンプトボックス型研究における人間専門家の要求とを比較した。
論文参考訳（メタデータ） (2025-01-31T16:55:17Z)
Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。 LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文参考訳（メタデータ） (2025-01-24T06:39:38Z)
AttackQA: Development and Adoption of a Dataset for Assisting Cybersecurity Operations using Fine-tuned and Open-Source LLMs [0.0]
大規模言語モデル(LLM)は、ユーザクエリに対する応答を生成するために微調整される。本研究では,AttackQAと呼ばれるサイバーセキュリティ質問応答(Q&A)データセットを開発する。我々は、セキュリティオペレーションセンターのアナリスト向けに設計されたRAGベースのQ&Aシステムを構築するためにそれを利用している。
論文参考訳（メタデータ） (2024-11-01T23:03:40Z)
GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。 GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文参考訳（メタデータ） (2024-10-11T03:05:06Z)
SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。 SFR-RAG(SFR-RAG)について述べる。また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文参考訳（メタデータ） (2024-09-16T01:08:18Z)
A Fuzzy Logic-Based Quality Model For Identifying Microservices With Low Maintainability [0.0]
本稿ではファジィ論理に基づく階層的品質モデルを提案する。ファジフィケーション手法を用いて、コードメトリクスの鮮明な値をファジィレベルに変換し、それらを品質モデルへのインプットとして適用します。
論文参考訳（メタデータ） (2024-06-20T16:53:37Z)
FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文参考訳（メタデータ） (2024-02-28T19:23:27Z)
Large Language Models as Automated Aligners for benchmarking Vision-Language Models [48.4367174400306]
VLM(Vision-Language Models)は新しいレベルの高度化に達し、複雑な認知と推論タスクの実行において顕著な能力を示している。既存の評価ベンチマークは、厳密で手作りのデータセットを主に頼りにしており、人為的なモデルと人間の知性との整合性を評価する上で、重大な制限に直面している。本研究では,LLMを有能なキュレーションとして探求し,自動データキュレーションとアセスメントによってVLMと人間の知性と価値のアライメントを測定するAuto-Benchを用いて,その限界に対処する。
論文参考訳（メタデータ） (2023-11-24T16:12:05Z)
On Systematically Building a Controlled Natural Language for Functional Requirements [2.9676973500772887]
自然言語(NL)は、ソフトウェア要件仕様(SRS)において広く普及している。その人気と広く使われているにもかかわらず、NLはあいまいさ、曖昧さ、不完全さといった品質の問題に高い傾向にある。要求文書の品質問題を防止する手段として,制御自然言語(CNL)が提案されている。
論文参考訳（メタデータ） (2020-05-04T09:55:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。