論文の概要: A Benchmark Dataset And LLMs Comparison For NFR Classification With Explainable AI
- arxiv url: http://arxiv.org/abs/2510.18096v1
- Date: Mon, 20 Oct 2025 20:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.618137
- Title: A Benchmark Dataset And LLMs Comparison For NFR Classification With Explainable AI
- Title(参考訳): ベンチマークデータセットとLLMによるNFR分類と説明可能なAIの比較
- Authors: Esrat Ebtida Sakib, MD Ahnaf Akib, Md Muktadir Mazumder, Maliha Noushin Raida, Md. Mohsinul Kabir,
- Abstract要約: 非Functional Requirements(NFR)は、ソフトウェアシステムの全体的な品質とユーザ満足度を決定する上で重要な役割を果たす。
さまざまなプロジェクト憲章とオープンソースソフトウェアドキュメントからNFRを収集しました。
我々はNFRをサブクラスに分類し、広く使われている大規模言語モデルを用いてニーズを特定した。
- 参考スコア(独自算出の注目度): 0.21748200848556345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-Functional Requirements (NFRs) play a critical role in determining the overall quality and user satisfaction of software systems. Accurately identifying and classifying NFRs is essential to ensure that software meets performance, usability, and reliability expectations. However, manual identification of NFRs from documentation is time-consuming and prone to errors, necessitating automated solutions. Before implementing any automated solution, a robust and comprehensive dataset is essential. To build such a dataset, we collected NFRs from various Project Charters and Open Source Software Documentation. This enhanced the technical depth and usability of an already existing NFR dataset. We categorized NFRs into sub-classes and identified needs using widely used Large Language Models to facilitate automation. After classifying the NFRs, we compared the classification results of the selected LLMs: RoBERTa, CodeBERT, Gemma-2, Phi-3, Mistral-8B, and Llama-3.1-8B using various evaluation metrics, including precision, recall, F1-score, and lime scores. Among these models, Gemma-2 achieved the best results with a precision of 0.87, recall of 0.89, and F1-score of 0.88, alongside a lime hit score of 78 out of 80. Phi-3 closely followed with a precision of 0.85, recall of 0.87, F1-score of 0.86, and the highest lime hit score of 79. By improving the contextual foundation, this integration enhanced the model's comprehension of technical aspects and user requirements.
- Abstract(参考訳): 非Functional Requirements(NFR)は、ソフトウェアシステムの全体的な品質とユーザ満足度を決定する上で重要な役割を果たす。
NFRの正確な識別と分類は、ソフトウェアがパフォーマンス、ユーザビリティ、信頼性の期待を満たすことを保証するために不可欠です。
しかしながら、ドキュメントからNFRを手動で識別することは時間がかかり、エラーを起こしやすいため、自動化されたソリューションが必要になる。
自動化されたソリューションを実装する前には、堅牢で包括的なデータセットが不可欠だ。
このようなデータセットを構築するために、さまざまなProject ChartersとOpen Source Software DocumentationからNFRを収集しました。
これにより、既存のNFRデータセットの技術的深度とユーザビリティが向上した。
我々はNFRをサブクラスに分類し、自動化を容易にするために広く使われている大規模言語モデルを用いてニーズを特定した。
NFRを分類した後、精度、リコール、F1スコア、ライムスコアなどの様々な評価指標を用いて、RoBERTa、CodeBERT、Gemma-2、Phi-3、Mistral-8B、Llama-3.1-8Bの分類結果を比較した。
これらのモデルのうち、Gemma-2は精度0.87、リコール0.89、F1スコア0.88、ライムヒットスコア80点中78点で最高の成績を収めた。
Phi-3は精度0.85、リコール0.87、F1スコア0.86、最高ライムヒット79。
コンテキスト基盤を改善することで、この統合はモデルの技術的な側面とユーザー要求の理解を高めました。
関連論文リスト
- Improving Crash Data Quality with Large Language Models: Evidence from Secondary Crash Narratives in Kentucky [13.50189012080061]
本研究は, クラッシュ・ナラティブをマイニングすることで, クラッシュデータ品質を向上させるために, 高度な自然言語処理(NLP)技術を評価するものである。
2015-2022年の16,656件を手作業でレビューし、3,803件の二次衝突を確認し、3つのモデルクラスを比較した。
微調整トランスは優れた性能を発揮し、RoBERTaはF1スコア(0.90)、精度は95%だった。
論文 参考訳(メタデータ) (2025-08-06T12:41:18Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - RobuNFR: Evaluating the Robustness of Large Language Models on Non-Functional Requirements Aware Code Generation [52.87427601131587]
NFR対応コード生成におけるLLMのロバスト性を評価するため,RobuNFRを提案する。
実験の結果,コード生成におけるNFRを考慮した場合,RobuNFRは試験LLMの問題を明らかにすることがわかった。
論文 参考訳(メタデータ) (2025-03-28T20:05:33Z) - Automated Non-Functional Requirements Generation in Software Engineering with Large Language Models: A Comparative Study [0.0]
非機能要件(NFR)はしばしば見過ごされ、識別が難しく、ソフトウェアの品質に影響を与えます。
我々は、LLM(Large Language Models)を活用して、機能要件(FR)から品質駆動型NFRを導出するフレームワークを開発した。
Denoベースのパイプライン内で独自のプロンプト技術を使用して、システムは機能要件ごとに関連する品質特性を特定し、対応するNFRを生成する。
論文 参考訳(メタデータ) (2025-03-19T14:23:22Z) - Preference Learning Algorithms Do Not Learn Preference Rankings [62.335733662381884]
選好学習は、好ましくない出力よりも、好ましくない出力により高い確率を割り当てるようにモデルを訓練する、という従来の知恵を考察する。
多くの最先端の選好調整モデルでは、一般的な選好データセットでは60%未満のランキング精度が得られている。
論文 参考訳(メタデータ) (2024-05-29T21:29:44Z) - Exploring the Value of Pre-trained Language Models for Clinical Named
Entity Recognition [6.917786124918387]
我々は、スクラッチからトレーニングされたTransformerモデルと、細調整されたBERTベースのLLMを比較した。
文脈学習を促進するために,追加のCRF層がそのようなモデルに与える影響を検討する。
論文 参考訳(メタデータ) (2022-10-23T16:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。