論文の概要: From Online User Feedback to Requirements: Evaluating Large Language Models for Classification and Specification Tasks
- arxiv url: http://arxiv.org/abs/2510.23055v1
- Date: Mon, 27 Oct 2025 06:33:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.477801
- Title: From Online User Feedback to Requirements: Evaluating Large Language Models for Classification and Specification Tasks
- Title(参考訳): オンラインユーザフィードバックから要件へ:分類と仕様タスクのための大規模言語モデルの評価
- Authors: Manjeshwar Aniruddh Mallya, Alessio Ferrari, Mohammad Amin Zadenoori, Jacek Dąbrowski,
- Abstract要約: 大規模言語モデル(LLM)は、オンラインユーザフィードバックの分析を自動化する強力な可能性を示している。
既存の研究は限定的な実証的な証拠を提供し、徹底的な評価を欠いており、複製パッケージはめったに提供していない。
我々は,3つの要求工学(RE)タスクにおいて,5つの軽量オープンソースLCMを評価した。
- 参考スコア(独自算出の注目度): 0.777471208829183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: [Context and Motivation] Online user feedback provides valuable information to support requirements engineering (RE). However, analyzing online user feedback is challenging due to its large volume and noise. Large language models (LLMs) show strong potential to automate this process and outperform previous techniques. They can also enable new tasks, such as generating requirements specifications. [Question-Problem] Despite their potential, the use of LLMs to analyze user feedback for RE remains underexplored. Existing studies offer limited empirical evidence, lack thorough evaluation, and rarely provide replication packages, undermining validity and reproducibility. [Principal Idea-Results] We evaluate five lightweight open-source LLMs on three RE tasks: user request classification, NFR classification, and requirements specification generation. Classification performance was measured on two feedback datasets, and specification quality via human evaluation. LLMs achieved moderate-to-high classification accuracy (F1 ~ 0.47-0.68) and moderately high specification quality (mean ~ 3/5). [Contributions] We newly explore lightweight LLMs for feedback-driven requirements development. Our contributions are: (i) an empirical evaluation of lightweight LLMs on three RE tasks, (ii) a replication package, and (iii) insights into their capabilities and limitations for RE.
- Abstract(参考訳): [コンテキストとモチベーション] オンラインユーザフィードバックは、要求工学(RE)をサポートする貴重な情報を提供します。
しかし, オンラインユーザからのフィードバックは, 膨大な量とノイズのため, 分析が難しい。
大規模言語モデル(LLM)は、このプロセスを自動化し、以前の手法より優れている可能性を示している。
また、要求仕様の生成など、新しいタスクも有効にできる。
[Question-Problem] その可能性にもかかわらず、REのユーザフィードバック分析にLLMを使うことは、まだ未検討である。
現存する研究は、限られた実証的な証拠を提供し、徹底的な評価を欠き、複製パッケージを提供し、妥当性と再現性を損なうことは滅多にない。
目的〕ユーザ要求分類,NFR分類,要求仕様生成という3つのREタスクにおいて,軽量なオープンソースLLMを5つ評価する。
2つのフィードバックデータセットで分類性能を測定し,人間による評価によって仕様品質を測定した。
LLMは中程度の分類精度(F1 ~ 0.47-0.68)と中程度の仕様品質(平均3/5)を達成した。
[コントリビューション]フィードバック駆動型要件開発のための軽量LCMを新たに検討する。
私たちの貢献は次のとおりです。
(i)3つのREタスクにおける軽量LCMの実証評価
(ii)複製パッケージ、及び
三 REの能力及び限界についての洞察。
関連論文リスト
- ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge [94.40918390309186]
大規模言語モデル(LLM)の進捗を評価することは、応答を検証するという課題によって制約されることが多い。
7000以上の応答基準ペアの集合であるProfBenchを紹介する。
以上の結果から, ProfBench は最先端の LLM においても大きな課題となることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-21T17:59:44Z) - FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering [57.43420753842626]
FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。
回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-07T20:06:15Z) - Meeseeks: A Feedback-Driven, Iterative Self-Correction Benchmark evaluating LLMs' Instruction Following Capability [21.96694731466089]
フィードバック機構を組み込んだ完全に自動化された命令追従ベンチマークであるMeeseeksを紹介した。
Meeseeksは、モデル応答における誤ったコンポーネントを特定し、対応するフィードバックを正確に提供することで、モデルを自己補正に向けて反復的に導く。
我々は、マクロレベルとインスタンスレベルの両方から包括的な分析を行い、現在の最先端モデルでよく見られる多くの共通問題を明らかにした。
論文 参考訳(メタデータ) (2025-04-30T13:28:19Z) - Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。
ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。
次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文 参考訳(メタデータ) (2024-11-29T12:21:15Z) - Large Language Models as Evaluators for Recommendation Explanations [23.938202791437337]
我々は,LLMがレコメンデーション・リコメンデーション・リコメンデーションの評価に役立てられるかどうかを検討する。
我々は,評価者ラベルとユーザが提供する真実との相関を計測するために,3段階のメタ評価戦略を設計し,適用する。
本研究は,LLMを評価対象として活用することは,レコメンデーション説明文の評価において,正確かつ再現可能で費用対効果の高いソリューションであることを示す。
論文 参考訳(メタデータ) (2024-06-05T13:23:23Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。