論文の概要: Text2Stories: Evaluating the Alignment Between Stakeholder Interviews and Generated User Stories
- arxiv url: http://arxiv.org/abs/2510.08622v1
- Date: Wed, 08 Oct 2025 09:12:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.212193
- Title: Text2Stories: Evaluating the Alignment Between Stakeholder Interviews and Generated User Stories
- Title(参考訳): Text2Stories: 株主インタビューとユーザストーリー生成のアライメントを評価する
- Authors: Francesco Dente, Fabiano Dalpiaz, Paolo Papotti,
- Abstract要約: テキスト間アライメントのためのタスクとメトリクスであるText2Storiesを紹介する。
我々の測定基準は、書き起こしによって支持されるストーリーの割合と(ii)完全性、少なくとも1つのストーリーで支持される書き起こしの割合を定量化します。
4つのデータセットに対する実験により、LLMベースのマーカが保持されたアノテーション上で0.86マクロF1を達成することが示された。
- 参考スコア(独自算出の注目度): 10.591919727046017
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) can be employed for automating the generation of software requirements from natural language inputs such as the transcripts of elicitation interviews. However, evaluating whether those derived requirements faithfully reflect the stakeholders' needs remains a largely manual task. We introduce Text2Stories, a task and metrics for text-to-story alignment that allow quantifying the extent to which requirements (in the form of user stories) match the actual needs expressed by the elicitation session participants. Given an interview transcript and a set of user stories, our metric quantifies (i) correctness: the proportion of stories supported by the transcript, and (ii) completeness: the proportion of transcript supported by at least one story. We segment the transcript into text chunks and instantiate the alignment as a matching problem between chunks and stories. Experiments over four datasets show that an LLM-based matcher achieves 0.86 macro-F1 on held-out annotations, while embedding models alone remain behind but enable effective blocking. Finally, we show how our metrics enable the comparison across sets of stories (e.g., human vs. generated), positioning Text2Stories as a scalable, source-faithful complement to existing user-story quality criteria.
- Abstract(参考訳): 大規模言語モデル(LLM)は、引用インタビューの書き起こしのような自然言語入力からソフトウェア要求を自動生成するために用いられる。
しかしながら、これらの派生した要件がステークホルダーのニーズを忠実に反映しているかどうかを評価することは、主に手作業である。
テキスト・ツー・ストーリー・アライメントのためのタスクとメトリクスであるText2Storiesを導入し、(ユーザ・ストーリーの形で)要求が実際の要求に合致する範囲を定量化できるようにする。
インタビューの書き起こしとユーザストーリーのセットが与えられた場合、我々のメトリクスは定量化します。
(i)正しさ:本文が支持する話の割合、及び
(ii)完全性:少なくとも1つの物語によって支持される写本の割合。
トランスクリプトをテキストチャンクに分割し、チャンクとストーリーの一致問題としてアライメントをインスタンス化する。
4つのデータセットに対する実験では、LLMベースのマーカがホールドアウトアノテーションで0.86マクロF1を達成する一方で、埋め込みモデルだけが後方に留まり、効果的なブロッキングを可能にする。
最後に、我々のメトリクスがストーリーの集合(例えば、人間と生成されたもの)の比較をどのように可能にしているかを示し、Text2Storiesを既存のユーザストーリーの品質基準をスケーラブルでソースに忠実に補完するものとして位置づける。
関連論文リスト
- PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Evaluation Metrics of Language Generation Models for Synthetic Traffic
Generation Tasks [22.629816738693254]
BLEUのような一般的なNLGメトリクスは、合成トラフィック生成(STG)の評価には適していないことを示す。
生成したトラフィックと実際のユーザテキストの分布を比較するために設計されたいくつかの指標を提案し,評価する。
論文 参考訳(メタデータ) (2023-11-21T11:26:26Z) - To token or not to token: A Comparative Study of Text Representations
for Cross-Lingual Transfer [23.777874316083984]
ゼロショットと少数ショットの両方の評価を重み付けして表現できるスコアリング言語クオシアン計量を提案する。
解析の結果,言語が密接に関連し,視覚的に類似したスクリプトを共有する場合,画像ベースモデルは言語間移動に優れることがわかった。
単語関係が重要な役割を果たす依存性解析タスクでは、キャラクタレベルに焦点を当てたモデルが他よりも優れています。
論文 参考訳(メタデータ) (2023-10-12T06:59:10Z) - MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text
Classification [65.51149771074944]
MetricPromptは、数発のテキスト分類タスクをテキストペア関連性推定タスクに書き換えることで、言語設計の難易度を緩和する。
広範に使われている3つのテキスト分類データセットを4つのショット・セッティングで実験する。
結果から,MetricPromptは,手動弁証法や自動弁証法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-06-15T06:51:35Z) - Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue
Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。
中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。
実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:27:43Z) - STORIUM: A Dataset and Evaluation Platform for Machine-in-the-Loop Story
Generation [48.56586847883825]
我々は、オンラインのコラボレーティブなストーリーテリングコミュニティであるSTORiumから構築されたデータセットと評価プラットフォームを紹介した。
データセットには6Kの長編記事と、各物語に散在する詳細な自然言語アノテーションが含まれています。
我々は、STORiumにそれらを統合することで、データセット上で微調整された言語モデルを評価し、実際の著者は提案されたストーリーの継続をモデルに問い合わせ、編集することができる。
論文 参考訳(メタデータ) (2020-10-04T23:26:09Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。