Fugu-MT 論文翻訳(概要): From Reviews to Requirements: Can LLMs Generate Human-Like User Stories?

論文の概要: From Reviews to Requirements: Can LLMs Generate Human-Like User Stories?

arxiv url: http://arxiv.org/abs/2603.28163v1
Date: Mon, 30 Mar 2026 08:31:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-31 23:18:45.305084
Title: From Reviews to Requirements: Can LLMs Generate Human-Like User Stories?
Title（参考訳）: レビューから要件へ:LLMはヒューマンライクなユーザストーリーを生成することができるか?
Authors: Shadman Sakib, Oishy Fatema Akhand, Tasnia Tasneem, Shohel Ahmed,
Abstract要約: 我々は,大規模言語モデル(LLM)が生のアプリレビューから直接使用可能なユーザストーリを生成できるかどうかを評価する。 1,000以上のヘルスアプリレビューのMini-BARデータセットを使用して、ゼロショット、ワンショット、ツーショットプロンプトメソッドをテストしました。以上の結果から,LLMは流動的で整形されたユーザストーリーを書く上で,人間にマッチする,あるいは優れる可能性が示唆された。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: App store reviews provide a constant flow of real user feedback that can help improve software requirements. However, these reviews are often messy, informal, and difficult to analyze manually at scale. Although automated techniques exist, many do not perform well when replicated and often fail to produce clean, backlog-ready user stories for agile projects. In this study, we evaluate how well large language models (LLMs) such as GPT-3.5 Turbo, Gemini 2.0 Flash, and Mistral 7B Instruct can generate usable user stories directly from raw app reviews. Using the Mini-BAR dataset of 1,000+ health app reviews, we tested zero-shot, one-shot, and two-shot prompting methods. We evaluated the generated user stories using both human judgment (via the RUST framework) and a RoBERTa classifier fine-tuned on UStAI to assess their overall quality. Our results show that LLMs can match or even outperform humans in writing fluent, well-formatted user stories, especially when few-shot prompts are used. However, they still struggle to produce independent and unique user stories, which are essential for building a strong agile backlog. Overall, our findings show how LLMs can reliably turn unstructured app reviews into actionable software requirements, providing developers with clear guidance to turn user feedback into meaningful improvements.
Abstract（参考訳）: App Storeのレビューは、ソフトウェア要件を改善する上で有効な、実際のユーザフィードバックの絶え間ないフローを提供する。しかし、これらのレビューは乱雑で非公式で、手作業で大規模に分析することが難しいことが多い。自動化されたテクニックは存在するが、多くは複製された時にうまく機能せず、アジャイルプロジェクトではクリーンでバックログ対応のユーザストーリーを作成できない。本研究では,GPT-3.5 Turbo,Gemini 2.0 Flash,Mistral 7B Instructといった大規模言語モデル(LLM)が,生のアプリレビューから直接使用可能なユーザストーリを生成することができるかを評価する。 1,000以上のヘルスアプリレビューのMini-BARデータセットを使用して、ゼロショット、ワンショット、ツーショットプロンプトメソッドをテストしました。生成したユーザストーリを,(RUSTフレームワークを介して)UStAIで微調整されたRoBERTa分類器を用いて評価し,その全体的な品質を評価する。以上の結果から,LLMは,特に数発のプロンプトを使用する場合の,流動的で整形性の高いユーザストーリの記述において,人間にマッチする,あるいは優れる可能性が示唆された。しかしながら,強いアジャイルバックログを構築する上で不可欠な,独立したユニークなユーザストーリの生成には依然として苦労しています。全体として、当社の調査結果は、LLMが構造化されていないアプリのレビューを実用的なソフトウェア要件に確実に変換し、開発者がユーザフィードバックを意味のある改善にするための明確なガイダンスを提供する方法を示しています。

関連論文リスト

Few-Shot and Training-Free Review Generation via Conversational Prompting [2.0305676256390934]
現実世界のアプリケーションは、ほとんどショットやトレーニングなしの状況に直面することが多い。本稿では,ユーザレビューをマルチターン会話として再構成する軽量な手法である会話型プロンプトを提案する。
論文参考訳（メタデータ） (2025-09-25T06:36:08Z)
User Feedback in Human-LLM Dialogues: A Lens to Understand Users But Noisy as a Learning Signal [59.120335322495436]
ユーザ-LLM会話ログのユーザフィードバックを分析し、そのようなフィードバックの発生時期と理由について考察する。第2に、このような暗黙のユーザフィードバックから学習信号を抽出することについて研究する。
論文参考訳（メタデータ） (2025-07-30T23:33:29Z)
Help Me Write a Story: Evaluating LLMs' Ability to Generate Writing Feedback [57.200668979963694]
我々は1,300のストーリーからなる新しいテストセットを提示し、故意に執筆問題を紹介した。本研究では,この作業においてよく用いられるLCMの性能を,自動評価と人的評価の両方を用いて検討する。
論文参考訳（メタデータ） (2025-07-21T18:56:50Z)
Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [53.059480071818136]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。 PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。 LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文参考訳（メタデータ） (2025-04-19T08:16:10Z)
Exploring LLMs Impact on Student-Created User Stories and Acceptance Testing in Software Development [0.0]
本研究では,LLM(大規模言語モデル)が大学生のユーザフィードバックをユーザストーリーに変換する能力に与える影響について検討する。個別に働く学生は、ユーザーからのフィードバックのコメントを分析し、関連項目を適切にグループ化し、ユーザーストーリーを作成するように求められた。その結果,LLMは学生にとって価値あるストーリーを十分に定義された受理基準で開発するのに役立つことがわかった。
論文参考訳（メタデータ） (2025-02-04T19:35:44Z)
User Story Tutor (UST) to Support Agile Software Developers [0.4077787659104315]
User Story Tutor (UST)と呼ばれるWebアプリケーションを設計、実装、適用、評価しました。 USTは、可読性のために与えられたユーザストーリーの記述をチェックし、必要に応じて、改善のための適切なプラクティスを推奨します。 USTは、ユーザストーリーを書いたりレビューしたりする際に、アジャイル開発チームの継続的な教育をサポートするかもしれない。
論文参考訳（メタデータ） (2024-06-24T01:55:01Z)
Zero-shot Bilingual App Reviews Mining with Large Language Models [0.7340017786387767]
Mini-BARは、英語とフランス語の両方でユーザーレビューのゼロショットマイニングを実行するために、大きな言語モデル(LLM)を統合するツールである。 Mini-BARの性能を評価するために、6,000の英語と6000のフランス語の注釈付きユーザレビューを含むデータセットを作成しました。
論文参考訳（メタデータ） (2023-11-06T12:36:46Z)
Recommendations by Concise User Profiles from Review Text [24.408292545170944]
この研究は、非常に疎いインタラクションを持つユーザの難解かつ過小評価されたケースに対処する。 LLMを通して全てのレビューの全文をフィードすることは、信号とノイズの比が弱く、処理されたトークンのコストが高くなる。このフレームワークは、まず簡潔なユーザプロファイルを計算し、これらのみをトランスフォーマーベースのレコメンデータのトレーニングに投入する。
論文参考訳（メタデータ） (2023-11-02T15:31:12Z)
Automating App Review Response Generation [67.58267006314415]
本稿では,レビューと回答の知識関係を学習することで,レビュー応答を自動的に生成する新しいアプローチRRGenを提案する。 58のアプリと309,246のレビュー-レスポンスペアの実験では、RRGenはBLEU-4の点で少なくとも67.4%のベースラインを上回っている。
論文参考訳（メタデータ） (2020-02-10T05:23:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。