論文の概要: ChatGPT as a tool for User Story Quality Evaluation: Trustworthy Out of
the Box?
- arxiv url: http://arxiv.org/abs/2306.12132v1
- Date: Wed, 21 Jun 2023 09:26:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 19:05:36.459270
- Title: ChatGPT as a tool for User Story Quality Evaluation: Trustworthy Out of
the Box?
- Title(参考訳): ユーザストーリー品質評価ツールとしてのChatGPT:信頼に値するアウトオブザボックス?
- Authors: Krishna Ronanki, Beatriz Cabrero-Daniel, and Christian Berger
- Abstract要約: 本研究では,ユーザストーリーの品質評価にChatGPTを用い,その性能を既存のベンチマークと比較する。
本研究は,ChatGPTの評価が人間の評価とよく一致していることを示し,出力安定性を向上させるための3'の戦略を提案する。
- 参考スコア(独自算出の注目度): 3.6526713965824515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Agile software development, user stories play a vital role in capturing
and conveying end-user needs, prioritizing features, and facilitating
communication and collaboration within development teams. However, automated
methods for evaluating user stories require training in NLP tools and can be
time-consuming to develop and integrate. This study explores using ChatGPT for
user story quality evaluation and compares its performance with an existing
benchmark. Our study shows that ChatGPT's evaluation aligns well with human
evaluation, and we propose a ``best of three'' strategy to improve its output
stability. We also discuss the concept of trustworthiness in AI and its
implications for non-experts using ChatGPT's unprocessed outputs. Our research
contributes to understanding the reliability and applicability of AI in user
story evaluation and offers recommendations for future research.
- Abstract(参考訳): アジャイルソフトウェア開発では、エンドユーザのニーズを捉えて伝達し、機能を優先順位付けし、開発チーム内のコミュニケーションとコラボレーションを促進する上で、ユーザストーリが重要な役割を果たします。
しかし、ユーザーストーリーを評価する自動化手法は、NLPツールでのトレーニングを必要とし、開発と統合に時間がかかる。
本研究では,ユーザストーリーの品質評価にChatGPTを用い,その性能を既存のベンチマークと比較する。
本研究は,ChatGPTの評価が人間の評価とよく一致していることを示し,出力安定性を向上させるための「3つのうちのベスト」戦略を提案する。
また、AIにおける信頼性の概念と、ChatGPTの未処理出力を用いた非専門家への影響についても論じる。
本研究は,ユーザストーリー評価におけるAIの信頼性と適用性を理解することに貢献し,今後の研究に推奨する。
関連論文リスト
- User Story Tutor (UST) to Support Agile Software Developers [0.4077787659104315]
User Story Tutor (UST)と呼ばれるWebアプリケーションを設計、実装、適用、評価しました。
USTは、可読性のために与えられたユーザストーリーの記述をチェックし、必要に応じて、改善のための適切なプラクティスを推奨します。
USTは、ユーザストーリーを書いたりレビューしたりする際に、アジャイル開発チームの継続的な教育をサポートするかもしれない。
論文 参考訳(メタデータ) (2024-06-24T01:55:01Z) - Chatbots Are Not Reliable Text Annotators [0.0]
ChatGPTはクローズドソース製品で、透明性、コスト、データ保護に関して大きな欠点があります。
オープンソースの(OS)大規模言語モデル(LLM)の最近の進歩は、これらの課題を解決する代替手段を提供する。
論文 参考訳(メタデータ) (2023-11-09T22:28:14Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - ChatGPT is a Remarkable Tool -- For Experts [9.46644539427004]
生産性の向上,問題解決プロセスの合理化,書き込みスタイルの改善など,ChatGPTの可能性を探究する。
これらの分野では、ChatGPTへの過度な依存に関連する潜在的なリスクを強調します。
われわれはChatGPTが有益であることを証明した分野と目的、ChatGPTを法的に使用するべきアプリケーション、信頼性が制限されるシナリオについて概説する。
論文 参考訳(メタデータ) (2023-06-02T06:28:21Z) - Exploring the Efficacy of ChatGPT in Analyzing Student Teamwork Feedback
with an Existing Taxonomy [0.0]
ChatGPTは、学生コメントのラベル付けにおいて90%以上の精度を達成することができる。
この研究は、教育的文脈におけるAIモデルの利用に関する研究の活発化に寄与する。
論文 参考訳(メタデータ) (2023-05-09T19:55:50Z) - ChatLog: Carefully Evaluating the Evolution of ChatGPT Across Time [54.18651663847874]
ChatGPTは大きな成功をおさめ、インフラ的な地位を得たと考えられる。
既存のベンチマークでは,(1)周期的評価の無視,(2)きめ細かい特徴の欠如という2つの課題に直面する。
2023年3月から現在まで,21のNLPベンチマークに対して,さまざまな長文ChatGPT応答を大規模に記録した常時更新データセットであるChatLogを構築している。
論文 参考訳(メタデータ) (2023-04-27T11:33:48Z) - Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: An Empirical Study [63.27346930921658]
ChatGPTは、参照なしで様々な視点からテキスト品質を効果的に評価することができる。
ChatGPTを用いてテキスト品質を測定するExplicit Scoreは、3つの手法の中で最も効果的で信頼性の高い方法である。
論文 参考訳(メタデータ) (2023-04-03T05:29:58Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - On the Robustness of ChatGPT: An Adversarial and Out-of-distribution
Perspective [67.98821225810204]
本研究は,ChatGPTの頑健性について,敵対的視点とアウト・オブ・ディストリビューションの観点から評価する。
その結果,ほとんどの対人・OOD分類・翻訳作業において一貫した優位性を示した。
ChatGPTは対話関連テキストの理解において驚くべきパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-02-22T11:01:20Z) - FEBR: Expert-Based Recommendation Framework for beneficial and
personalized content [77.86290991564829]
推奨コンテンツの質を評価するための見習い学習フレームワークであるFEBR(Expert-Based Recommendation Framework)を提案する。
このフレームワークは、推奨評価環境において専門家(信頼できると仮定される)の実証された軌跡を利用して、未知のユーティリティ機能を回復する。
ユーザ関心シミュレーション環境(RecSim)によるソリューションの性能評価を行う。
論文 参考訳(メタデータ) (2021-07-17T18:21:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。