論文の概要: ReqElicitGym: An Evaluation Environment for Interview Competence in Conversational Requirements Elicitation
- arxiv url: http://arxiv.org/abs/2602.18306v1
- Date: Fri, 20 Feb 2026 16:02:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.369916
- Title: ReqElicitGym: An Evaluation Environment for Interview Competence in Conversational Requirements Elicitation
- Title(参考訳): ReqElicitGym:会話要求の緩和におけるインタビュー能力の評価環境
- Authors: Dongming Jin, Zhi Jin, Zheng Fang, Linyu Li, XiaoTian Yang, Yuanpeng He, Xiaohong Chen,
- Abstract要約: 自動ソフトウェア開発のボトルネックは、正しいコードを生成することから、ユーザの要求を引き出すものである。
関心が高まりつつも、会話要求推論におけるLLMの面接能力はいまだに未熟である。
対話型・自動評価環境であるReqElicitGymを提案する。
- 参考スコア(独自算出の注目度): 36.77382403204434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid improvement of LLMs' coding capabilities, the bottleneck of LLM-based automated software development is shifting from generating correct code to eliciting users' requirements. Despite growing interest, the interview competence of LLMs in conversational requirements elicitation remains fully underexplored. Existing evaluations often depend on a few scenarios, real user interaction, and subjective human scoring, which hinders systematic and quantitative comparison. To address these challenges, we propose ReqElicitGym, an interactive and automatic evaluation environment for assessing interview competence in conversational requirements elicitation. Specifically, ReqElicitGym introduces a new evaluation dataset and designs both an interactive oracle user and a task evaluator. The dataset contains 101 website requirements elicitation scenarios spanning 10 application types. Both the oracle user and the task evaluator achieve high agreement with real users and expert judgment. Using our ReqElicitGym, any automated conversational requirements elicitation approach (e.g., LLM-based agents) can be evaluated in a reproducible and quantitative manner through interaction with the environment. Based on our ReqElicitGym, we conduct a systematic empirical study on seven representative LLMs, and the results show that current LLMs still exhibit limited interview competence in uncovering implicit requirements. Particularly, they elicit less than half of the users' implicit requirements, and their effective elicitation questions often emerge in later turns of the dialogue. Besides, we found LLMs can elicit interaction and content implicit requirements, but consistently struggle with style-related requirements. We believe ReqElicitGym will facilitate the evaluation and development of automated conversational requirements elicitation.
- Abstract(参考訳): LLMのコーディング能力の急速な向上により、LLMベースの自動ソフトウェア開発のボトルネックは、正しいコードを生成することから、ユーザの要求を引き出すものへとシフトしている。
関心が高まりつつも、会話要求推論におけるLLMの面接能力はいまだに未熟である。
既存の評価は、しばしばいくつかのシナリオ、実際のユーザインタラクション、主観的な人間のスコアに依存し、体系的かつ定量的な比較を妨げる。
これらの課題に対処するため,対話型・自動評価環境であるReqElicitGymを提案する。
具体的には、ReqElicitGymは新しい評価データセットを導入し、インタラクティブなオラクルユーザとタスク評価ツールの両方を設計する。
データセットには、10のアプリケーションタイプにまたがる101のWebサイト要件適用シナリオが含まれている。
オラクルユーザとタスク評価者の両方が、実際のユーザと高い合意と専門家の判断を達成している。
我々のReqElicitGymを用いることで、環境との相互作用を通じて再現可能かつ定量的に、自動会話要求誘発アプローチ(例えば、LLMベースのエージェント)を評価できる。
ReqElicitGymをベースとした7つのLLMの体系的実証研究を行い、その結果、現在のLLMは暗黙的要件を明らかにする上で、限定的な面接能力を持つことが示された。
特に、ユーザーの暗黙の要求の半分以下を抽出し、効果的な引用質問は対話の後半に現れることが多い。
さらに、LLMは相互作用やコンテンツに暗黙的な要求を与えることができるが、スタイル関連の要求には一貫して苦労している。
我々はReqElicitGymが、自動会話要求推論の評価と開発を促進すると信じている。
関連論文リスト
- Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。
本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。
キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。
このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文 参考訳(メタデータ) (2025-07-28T23:50:09Z) - LLMREI: Automating Requirements Elicitation Interviews with LLMs [47.032121951473435]
本研究では,人間の介入を最小限に抑えながら,要求適応面接を行うチャットボット LLMREI を紹介する。
我々は33回のシミュレート・ステークホルダー・インタビューでその性能を評価した。
以上の結果から,LLMREIは人間のインタビュアーと同じような誤りを犯し,要求の大部分を抽出し,文脈に依存した質問を生成できることが示唆された。
論文 参考訳(メタデータ) (2025-07-03T12:18:05Z) - EvalAgent: Discovering Implicit Evaluation Criteria from the Web [82.82096383262068]
EvalAgentは、ニュアンスとタスク固有の基準を自動的に発見するように設計されたフレームワークである。
EvalAgentは、さまざまな長期評価基準を提案するために、専門家が作成したオンラインガイダンスをマイニングしている。
我々の実験では、EvalAgentが生み出す基準は暗黙的だが具体的であることが示されている。
論文 参考訳(メタデータ) (2025-04-21T16:43:50Z) - Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。
生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。
その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-04T15:47:47Z) - RECOVER: Toward Requirements Generation from Stakeholders' Conversations [10.706772429994384]
本稿では,会話要求工学の新たなアプローチであるRECOVERを紹介する。
利害関係者のインタラクションからシステム要件を自動的に抽出する実践者を支援する。
経験的評価は、十分な正確性、完全性、実行可能性を示す要求が生成された、有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-29T08:52:40Z) - RAD-Bench: Evaluating Large Language Models Capabilities in Retrieval Augmented Dialogues [8.036117602566074]
外的検索機構は、しばしば対話における拡張世代の品質を高めるために使用される。
既存のベンチマークでは、マルチターン対話におけるLLMのチャット能力の評価や、シングルターン設定における拡張応答に対する検索の利用が評価されている。
検索後のマルチターン対話におけるLLMの能力を評価するためのベンチマークであるRAD-Benchを紹介する。
論文 参考訳(メタデータ) (2024-09-19T08:26:45Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。