論文の概要: Behaviour Driven Development Scenario Generation with Large Language Models
- arxiv url: http://arxiv.org/abs/2603.04729v1
- Date: Thu, 05 Mar 2026 02:05:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.02823
- Title: Behaviour Driven Development Scenario Generation with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた振る舞い駆動開発シナリオ生成
- Authors: Amila Rathnayake, Mojtaba Shahin, Golnoush Abaei,
- Abstract要約: 本稿では,3つのLCM,GPT-4,Claude 3,Geminiについて,自動振る舞い駆動開発シナリオ生成のための評価を行った。
私たちは4つのプロプライエタリなソフトウェア製品から引き出された500のユーザストーリ、要件記述、それに対応するBDDシナリオのデータセットを構築しました。
- 参考スコア(独自算出の注目度): 3.255679497255447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an evaluation of three LLMs, GPT-4, Claude 3, and Gemini, for automated Behaviour-Driven Development (BDD) scenarios generation. To support this evaluation, we constructed a dataset of 500 user stories, requirement descriptions, and their corresponding BDD scenarios, drawn from four proprietary software products. We assessed the quality of BDD scenarios generated by LLMs using a multidimensional evaluation framework encompassing text and semantic similarity metrics, LLM-based evaluation, and human expert assessment. Our findings reveal that although GPT-4 achieves higher scores in text and semantic similarity metrics, Claude 3 produces scenarios rated highest by both human experts and LLM-based evaluators. LLM-based evaluators, particularly DeepSeek, show a stronger correlation with human judgment than with text similarity and semantic similarity metrics. The effectiveness of prompting techniques is model-specific: GPT-4 performs best with zero-shot, Claude 3 benefits from chain-of-thought reasoning, and Gemini achieves optimal results with few-shot examples. Input quality determines the effectiveness of BDD scenario generation: detailed requirement descriptions alone yield high-quality scenarios, whereas user stories alone yield low-quality scenarios. Our experiments indicate that setting temperature to 0 and top_p to 1.0 produced the highest-quality BDD scenarios across all models.
- Abstract(参考訳): 本稿では,自動振る舞い駆動開発(BDD)シナリオ生成のための3つのLCM,GPT-4,Claude 3,Geminiの評価を行う。
この評価をサポートするために,4つのプロプライエタリなソフトウェア製品から引き出された500のユーザストーリ,要件記述,それに対応するBDDシナリオのデータセットを構築しました。
テキストおよび意味的類似度指標,LLMに基づく評価,人間専門家による評価を含む多次元評価フレームワークを用いて,LLMが生成するBDDシナリオの品質を評価した。
以上の結果から,GPT-4はテキストと意味的類似度において高いスコアを得るが,Claude 3は人的専門家とLCMに基づく評価者の両方によって評価されたシナリオを生成することがわかった。
LLMベースの評価器、特にDeepSeekは、テキストの類似性や意味的類似性メトリクスよりも、人間の判断と強い相関を示す。
GPT-4はゼロショットで最善を尽くし、Claude 3はチェーンオブ思考推論の恩恵を受け、Geminiは少数ショットの例で最適な結果を得る。
詳細な要件記述だけで高品質のシナリオが得られるのに対して、ユーザストーリだけでは低品質のシナリオが得られるのです。
実験の結果、0とtop_pから1.0に設定すると、すべてのモデルで最高品質のBDDシナリオが生み出されました。
関連論文リスト
- No-Human in the Loop: Agentic Evaluation at Scale for Recommendation [11.764010898952677]
大規模言語モデル(LLM)を判断として評価することは、スケーラブルで信頼性の高い評価パイプラインを構築する上でますます重要になっている。
我々は、GPT、Gemini、Claude、Llamaを含む36のLLMを体系的に比較する大規模なベンチマーク研究であるScalingEvalを紹介する。
当社のマルチエージェントフレームワークは、パターン監査を集約し、スケーラブルな多数決投票を通じて、地味なラベルにコードを発行します。
論文 参考訳(メタデータ) (2025-11-04T22:49:39Z) - Multi-Domain ABSA Conversation Dataset Generation via LLMs for Real-World Evaluation and Model Comparison [0.0]
本稿では,Large Language Models (LLMs) を用いた合成ABSAデータ生成手法を提案する。
GPT-4oを用いて複数の領域に一貫したトピックと感情分布を持つデータを生成するための生成プロセスについて詳述する。
その結果, 合成データの有効性が示され, モデル間での相違点が明らかとなった。
論文 参考訳(メタデータ) (2025-05-30T15:24:17Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - Self-Rationalization in the Wild: A Large Scale Out-of-Distribution Evaluation on NLI-related tasks [59.47851630504264]
自由文の説明は表現力があり理解しやすいが、多くのデータセットには注釈付き説明データがない。
我々は、T5-LargeモデルとOLMo-7Bモデルを微調整し、微調整データ品質、微調整サンプル数、少数ショット選択方法の影響を評価した。
モデルは、自然言語推論(NLI)、ファクトチェック、抽象的な要約における幻覚検出の3つのタスクにまたがる19の多様なOODデータセットで評価される。
論文 参考訳(メタデータ) (2025-02-07T10:01:32Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - BatchEval: Towards Human-like Text Evaluation [12.187982795098623]
BatchEvalは、上記の問題を緩和するために、バッチ単位で反復的に評価するパラダイムである。
BatchEvalはPearson相関で10.5%,APIコストは64%,最先端の手法では10.5%向上している。
論文 参考訳(メタデータ) (2023-12-31T09:34:51Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [51.87391234815163]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - UMSE: Unified Multi-scenario Summarization Evaluation [52.60867881867428]
要約品質評価は、テキスト要約における非自明なタスクである。
統一多シナリオ要約評価モデル(UMSE)を提案する。
UMSEは3つの評価シナリオで使用できる能力に係わる最初の統合要約評価フレームワークである。
論文 参考訳(メタデータ) (2023-05-26T12:54:44Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。