論文の概要: Description and Comparative Analysis of QuRE: A New Industrial Requirements Quality Dataset
- arxiv url: http://arxiv.org/abs/2508.08868v1
- Date: Tue, 12 Aug 2025 11:51:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.411446
- Title: Description and Comparative Analysis of QuRE: A New Industrial Requirements Quality Dataset
- Title(参考訳): 新規産業要求品質データセットQuREの記述と比較分析
- Authors: Henning Femmer, Frank Houdek, Max Unterbusch, Andreas Vogelsang,
- Abstract要約: 本稿では,実世界のレビュープロセスを通じてアノテートされた2,111の産業要件からなる新しいデータセットQuREを紹介する。
以前は工業契約の一部として5年以上使用されていたが、現在、このデータセットは研究コミュニティにリリースされている。
- 参考スコア(独自算出の注目度): 2.2087818411607225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Requirements quality is central to successful software and systems engineering. Empirical research on quality defects in natural language requirements relies heavily on datasets, ideally as realistic and representative as possible. However, such datasets are often inaccessible, small, or lack sufficient detail. This paper introduces QuRE (Quality in Requirements), a new dataset comprising 2,111 industrial requirements that have been annotated through a real-world review process. Previously used for over five years as part of an industrial contract, this dataset is now being released to the research community. In this work, we furthermore provide descriptive statistics on the dataset, including measures such as lexical diversity and readability, and compare it to existing requirements datasets and synthetically generated requirements. In contrast to synthetic datasets, QuRE is linguistically similar to existing ones. However, this dataset comes with a detailed context description, and its labels have been created and used systematically and extensively in an industrial context over a period of close to a decade. Our goal is to foster transparency, comparability, and empirical rigor by supporting the development of a common gold standard for requirements quality datasets. This, in turn, will enable more sound and collaborative research efforts in the field.
- Abstract(参考訳): 要求品質は、ソフトウェアとシステムエンジニアリングの成功の中心である。
自然言語要求の品質欠陥に関する実証的研究は、理想的にはできるだけ現実的で代表的なデータセットに大きく依存している。
しかし、そのようなデータセットはアクセスできない、小さい、あるいは十分な詳細がないことが多い。
本稿では,QRE(Quality in Requirements)について紹介する。これは,実世界のレビュープロセスを通じてアノテートされた2,111の産業要件からなる新しいデータセットである。
以前は工業契約の一部として5年以上使用されていたが、現在、このデータセットは研究コミュニティにリリースされている。
本研究は、語彙多様性や可読性などの指標を含むデータセットに関する記述統計を、既存の要求データセットや合成された要件と比較する。
合成データセットとは対照的に、QuREは言語的に既存のデータセットと似ている。
しかし、このデータセットには詳細なコンテキスト記述が付属しており、そのラベルは10年近くにわたって産業的な文脈で体系的に、そして広く使用されている。
私たちのゴールは、要求品質データセットのための共通のゴールド標準の開発をサポートすることで、透明性、コンパラビリティ、経験的な厳密さを向上することにあります。
これにより、この分野におけるより健全で協力的な研究活動が可能になる。
関連論文リスト
- A Typology of Synthetic Datasets for Dialogue Processing in Clinical Contexts [1.215281324470423]
本稿では、医療領域における対話関連タスクにおいて、合成データセットの作成、評価、利用方法の概要について述べる。
そこで本研究では,データ合成のタイプや度合いを分類するために,比較と評価を容易にする新しいタイプ分類法を提案する。
論文 参考訳(メタデータ) (2025-05-05T20:58:08Z) - IGGA: A Dataset of Industrial Guidelines and Policy Statements for Generative AIs [8.420666056013685]
本稿では,GAI(Generative AIs)とLLM(Large Language Models)を産業や職場で使用するための,160の産業ガイドラインと政策ステートメントのデータセットであるIGGAを紹介する。
データセットには104,565語が含まれており、要求工学に一般的に適用される自然言語処理タスクの貴重なリソースとして機能している。
論文 参考訳(メタデータ) (2025-01-01T21:31:47Z) - Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey [26.670507323784616]
大規模言語モデル(LLM)は、合成データ生成による現実世界のデータ制限を軽減するために、データ中心のソリューションを提供する。
本稿では、合成データ生成の一般的なワークフローに基づく、関連する研究の組織を提供する。
論文 参考訳(メタデータ) (2024-06-14T07:47:09Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - DATED: Guidelines for Creating Synthetic Datasets for Engineering Design
Applications [3.463438487417909]
本研究では,合成データセットの生成,注釈付け,検証のための包括的ガイドラインを提案する。
この研究は、データセットの適切なサイズ、多様性、有用性、現実性を保証するために、思慮深いサンプリング手法の重要性を強調している。
本論文は、総合的に、エンジニアリング設計のための合成データセットの作成と公開を意図した研究者に貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-05-15T21:00:09Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。