論文の概要: DeepQuali: Initial results of a study on the use of large language models for assessing the quality of user stories
- arxiv url: http://arxiv.org/abs/2602.08887v1
- Date: Mon, 09 Feb 2026 16:49:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.378231
- Title: DeepQuali: Initial results of a study on the use of large language models for assessing the quality of user stories
- Title(参考訳): DeepQuali: ユーザストーリの品質評価における大規模言語モデルの利用に関する調査結果
- Authors: Adam Trendowicz, Daniel Seifert, Andreas Jedlitschka, Marcus Ciolkowski, Anton Strahilov,
- Abstract要約: 生成人工知能(英語版) (GAI) は、主にコーディングタスクにソフトウェア工学で使われている。
要求にGAIを使うことの現在の焦点は、品質評価ではなく、要求を導き、変換し、分類することにあります。
我々は,アジャイルソフトウェア開発における要件品質の評価と改善を目的としたLCM(GPT-4o)アプローチ"DeepQuali"を提案し,評価する。
- 参考スコア(独自算出の注目度): 0.40451653578314795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative artificial intelligence (GAI), specifically large language models (LLMs), are increasingly used in software engineering, mainly for coding tasks. However, requirements engineering - particularly requirements validation - has seen limited application of GAI. The current focus of using GAI for requirements is on eliciting, transforming, and classifying requirements, not on quality assessment. We propose and evaluate the LLM-based (GPT-4o) approach "DeepQuali", for assessing and improving requirements quality in agile software development. We applied it to projects in two small companies, where we compared LLM-based quality assessments with expert judgments. Experts also participated in walkthroughs of the solution, provided feedback, and rated their acceptance of the approach. Experts largely agreed with the LLM's quality assessments, especially regarding overall ratings and explanations. However, they did not always agree with the other experts on detailed ratings, suggesting that expertise and experience may influence judgments. Experts recognized the usefulness of the approach but criticized the lack of integration into their workflow. LLMs show potential in supporting software engineers with the quality assessment and improvement of requirements. The explicit use of quality models and explanatory feedback increases acceptance.
- Abstract(参考訳): 生成人工知能(GAI)、特に大規模言語モデル(LLM)は、主にコーディングタスクのために、ソフトウェア工学においてますます使われている。
しかしながら、要件エンジニアリング(特に要件検証)は、GAIの限定的な適用例である。
要求にGAIを使うことの現在の焦点は、品質評価ではなく、要求を導き、変換し、分類することにあります。
我々は,アジャイルソフトウェア開発における要件品質の評価と改善を目的としたLCM(GPT-4o)アプローチ"DeepQuali"を提案し,評価する。
2つの小規模企業のプロジェクトに適用し、LCMベースの品質評価と専門家の判断を比較した。
専門家もソリューションのウォークスルーに参加し、フィードバックを提供し、アプローチの受け入れを評価した。
専門家はLLMの品質評価、特に総合評価と説明に大きく同意した。
しかし、彼らは常に他の専門家に詳細な評価について同意せず、専門知識と経験が判断に影響を及ぼす可能性があることを示唆した。
専門家はこのアプローチの有用性を認識したが、ワークフローへの統合の欠如を批判した。
LLMは、品質評価と要求の改善でソフトウェアエンジニアを支援する可能性を示している。
品質モデルと説明的フィードバックの明示的な使用は、受け入れを増加させる。
関連論文リスト
- Applying a Requirements-Focused Agile Management Approach for Machine Learning-Enabled Systems [1.3704574906282525]
機械学習(ML)対応システムは、従来の要件工学(RE)とアジャイル管理に挑戦する。
既存のREとアジャイルのプラクティスは統合が不十分で、これらの特性に十分に適合していません。
本稿では,ML対応システムの継続的かつアジャイルな改善のための要件重視のアプローチであるRefineMLの適用経験について報告する。
論文 参考訳(メタデータ) (2026-02-04T20:49:02Z) - "You Are Rejected!": An Empirical Study of Large Language Models Taking Hiring Evaluations [1.1254231171451319]
本稿では,Large Language Models (LLM) が採用評価に合格できるかどうかを検討する。
我々は,現状のLLMを用いて応答を生成し,その性能を評価する。
LLMが理想的なエンジニアであるというこれまでの期待とは対照的に、我々の分析は、モデル生成の回答と企業参照のソリューションとの間に大きな矛盾があることを明らかにしている。
論文 参考訳(メタデータ) (2025-10-22T01:59:30Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Multi-Modal Requirements Data-based Acceptance Criteria Generation using LLMs [17.373348983049176]
マルチモーダル要求データから受け入れ基準を生成する新しい手法であるRAGcceptance M2REを提案する。
提案手法は,手作業の労力を効果的に削減し,未払いの利害関係者の意図を捉え,貴重な基準を提供する。
本研究は,ソフトウェア検証プロセスの合理化と開発効率の向上におけるマルチモーダルRAG技術の可能性を明らかにする。
論文 参考訳(メタデータ) (2025-08-09T08:35:40Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - Rethinking Machine Unlearning in Image Generation Models [59.697750585491264]
CatIGMUは、新しい階層的なタスク分類フレームワークである。
EvalIGMUは包括的な評価フレームワークである。
高品質な未学習データセットであるDataIGMを構築した。
論文 参考訳(メタデータ) (2025-06-03T11:25:14Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。