論文の概要: Can ChatGPT Generate Realistic Synthetic System Requirement Specifications? Results of a Case Study
- arxiv url: http://arxiv.org/abs/2603.09335v1
- Date: Tue, 10 Mar 2026 08:10:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.142339
- Title: Can ChatGPT Generate Realistic Synthetic System Requirement Specifications? Results of a Case Study
- Title(参考訳): ChatGPTは現実的な合成システム要求仕様を生成できるか? : 事例研究の結果
- Authors: Alex R. Mattukat, Florian M. Braun, Horst Lichter,
- Abstract要約: ChatGPTのようなブラックボックスの大型言語モデル(LLM)は魅力的な生成機能を提供する。
LLMは幻覚と過剰な自信に悩まされ、その使用に大きな課題を引き起こしている。
ChatGPTで10の業界で300のSSyRSを生成しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: System requirement specifications (SyRSs) are central, natural-language (NL) artifacts. Access to real SyRS for research purposes is highly valuable but limited by proprietary restrictions or confidentiality concerns. Generating synthetic SyRSs (SSyRSs) can address this scarcity. Black-box large language models (LLMs) such as ChatGPT offer compelling generation capabilities by providing easy access to NL generation functions without requiring access to real data. However, LLMs suffer from hallucinations and overconfidence, which pose major challenges in their use. We designed an exploratory study to investigate whether, despite these challenges, we can generate realistic SSyRSs with ChatGPT without having access to real SyRSs. Using a systematic approach that leverages prompt patterns, LLM-based quality assessments, and iterative prompt refinements, we generated 300 SSyRSs across 10 industries with ChatGPT. The results were evaluated using cross-model checks and an expert study, with n=87 submitted surveys. 62\% of experts considered the SSyRSs to be realistic. However, in-depth examination revealed contradictory statements and deficiencies. Overall, we were able to generate realistic SSyRSs to a certain extent with ChatGPT, but LLM-based quality assessments cannot fully replace thorough expert evaluations. This paper presents the methodology and results of our study and discusses the key insights we obtained.
- Abstract(参考訳): システム要件仕様(SyRS)は、中央の自然言語(NL)アーティファクトである。
研究目的のために本物のSyRSにアクセスすることは非常に価値があるが、プロプライエタリな制限や機密性に関する懸念によって制限されている。
合成SyRS(SSyRSs)の生成はこの不足に対処できる。
ChatGPTのようなブラックボックスの大規模言語モデル(LLM)は、実際のデータへのアクセスを必要とせず、NL生成機能への容易にアクセスを提供することで、魅力的な生成機能を提供する。
しかし、LSMは幻覚と過剰な自信に悩まされ、その使用に大きな課題を引き起こしている。
これらの課題にもかかわらず、実際のSyRSにアクセスすることなく、ChatGPTで現実的なSSyRSを生成できるかどうかを調べるための探索的研究を設計した。
そこで我々は,ChatGPTを用いた10産業に300のSSyRSを作成した。
結果は, クロスモデルチェックとエキスパートスタディを用いて評価され, n=87が提出された。
専門家の62%がSSyRSを現実的だと考えている。
しかし, 詳細な検査の結果, 矛盾する主張と欠陥が認められた。
全体として、ChatGPTである程度現実的なSSyRSを生成できたが、LCMに基づく品質評価は、徹底的な専門家評価を完全に置き換えることはできない。
本稿では,本研究の方法論と成果を概説し,得られた重要な知見について考察する。
関連論文リスト
- On the Use of Large Language Models for Qualitative Synthesis [0.45671221781968335]
大規模言語モデル(LLM)は、体系的レビュー(SR)、質的合成(QS)のような複雑なタスクをサポートすることを約束している。
不正使用は、既存の弱点を増幅し、SRの発見に対する自信を損なう可能性がある。
本研究は,LLMをQSに使用する際の課題を検討するために,2つの試行を含む共同オートエスノグラフィーを行った。
方法論的厳密さと実用性について各試験を検証し,LLMの製作方法と現状の限界から得られた技術レンズを用いてその結果を解釈した。
論文 参考訳(メタデータ) (2025-10-18T13:42:26Z) - Know Or Not: a library for evaluating out-of-knowledge base robustness [0.0]
大規模言語モデル(LLM)のOOKB(out-of-knowledge base)ロバスト性を体系的に評価するための新しい手法を提案する。
我々は,オープンソースライブラリである knowornot に方法論を実装し,ユーザがOOKB の堅牢性のために独自の評価データとパイプラインを開発できるようにする。
論文 参考訳(メタデータ) (2025-05-19T03:17:41Z) - Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。
ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。
次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文 参考訳(メタデータ) (2024-11-29T12:21:15Z) - Are You Human? An Adversarial Benchmark to Expose LLMs [2.6528263069045126]
LLM(Large Language Models)は、会話中に人間を偽装する警告機能を実証している。
LLMインポスタをリアルタイムに公開するための課題として設計されたテキストベースのプロンプトを評価する。
論文 参考訳(メタデータ) (2024-10-12T15:33:50Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。