論文の概要: Story Point Estimation Using Large Language Models
- arxiv url: http://arxiv.org/abs/2603.06276v1
- Date: Fri, 06 Mar 2026 13:34:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.801711
- Title: Story Point Estimation Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたストーリーポイント推定
- Authors: Pranam Prakash Shetty, Adarsh Balakrishnan, Mengqiao Xu, Xiaoyin Xi, Zhe Yu,
- Abstract要約: 本研究では,大規模言語モデル (LLM) を用いたストーリーポイント推定手法について検討した。
トレーニングデータ(ゼロショットプロンプト)がなければ、LLMは80%のデータでトレーニングされた教師付きディープラーニングモデルよりもストーリーポイントを予測できる。
- 参考スコア(独自算出の注目度): 1.839031891198526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study investigates the use of large language models (LLMs) for story point estimation. Story points are unitless, project-specific effort estimates that help developers on the scrum team forecast which product backlog items they plan to complete in a sprint. To facilitate this process, machine learning models, especially deep neural networks, have been applied to predict the story points based on the title and description of each item. However, such machine learning models require sufficient amounts of training data (with ground truth story points annotated by human developers) from the same software project to achieve decent prediction performance. This motivated us to explore whether LLMs are capable of (RQ1) predicting story points without training data or (RQ2) with only a few training data points. Our empirical results with four LLMs on 16 software projects show that, without any training data (zero-shot prompting), LLMs can predict story points better than supervised deep learning models trained on 80% of the data. The prediction performance of LLMs can be further improved with a few training examples (few-shot prompting). In addition, a recent study explored the use of comparative judgments (between a given pair of items which one requires more effort to implement) instead of directly annotating the story points to reduce the cognitive burden on developers. Therefore, this study also explores (RQ3) whether comparative judgments are easier to predict than story points for LLMs and (RQ4) whether comparative judgments can serve as few-shot examples for LLMs to improve their predictions of story points. Empirical results suggest that it is not easier for LLMs to predict comparative judgments than to directly estimate the story points, but comparative judgments can serve as few-shot examples to improve the LLMs' prediction performance as well as the human-annotated story points.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)を用いたストーリーポイント推定手法を提案する。
ストーリーポイントは、スクラムチームの開発者がスプリントで完了する予定のプロダクトバックログアイテムを予測するのに役立つ、単体でプロジェクト固有の取り組み見積です。
このプロセスを容易にするために、機械学習モデル、特にディープニューラルネットワークを用いて、各項目のタイトルと記述に基づいてストーリーポイントを予測する。
しかし、そのような機械学習モデルは、適切な予測性能を達成するために、同じソフトウェアプロジェクトから十分な量のトレーニングデータ(人間開発者によって注釈付けされた真実のストーリーポイントを含む)を必要とする。
これにより、LLMがトレーニングデータなしでストーリーポイントを予測できるかどうか(RQ1)や、ほんのわずかなトレーニングデータポイントしか持たない(RQ2)を探求する動機になりました。
16のソフトウェアプロジェクトにおける4つのLLMによる実証実験の結果、トレーニングデータ(ゼロショットプロンプト)がなければ、LLMは80%のデータでトレーニングされた教師付きディープラーニングモデルよりも、ストーリーポイントを予測できることがわかった。
LLMの予測性能は、いくつかのトレーニング例(フェーショットプロンプト)でさらに向上することができる。
さらに、最近の研究では、開発者に対する認知的負担を軽減するためにストーリーポイントに直接注釈を付けるのではなく、比較判断(実装により多くの労力を必要とする項目のペア間の比較)の使用について検討している。
そこで本研究では, 比較判断がLLMのストーリーポイントよりも予測し易いか (RQ4) と, LLMのストーリーポイントの予測を改善するために, 比較判断が少なからぬ例として機能するか (RQ4) についても検討した。
経験的結果は,LLM がストーリーポイントを直接推定するよりも,比較判断を予測することが容易ではないことを示唆している。
関連論文リスト
- Enhancing Rating Prediction with Off-the-Shelf LLMs Using In-Context User Reviews [16.394933051332657]
等級評価予測は、言語と数学的推論の両方を効果的に解く必要がある回帰タスクである。
本研究では,市販LCMの性能を評価予測に用い,異なるコンテキスト情報を提供する。
ユーザによるレビューでは,LCMのレーティング予測性能が大幅に向上していることがわかった。
論文 参考訳(メタデータ) (2025-10-01T03:04:20Z) - Predicting Language Models' Success at Zero-Shot Probabilistic Prediction [23.802154124780376]
個人レベルの特徴を生成するためのゼロショットモデルとして,大規模言語モデル(LLM)の能力について検討する。
LLMのパフォーマンスは、同じデータセット内のタスクと異なるデータセットの両方で非常に可変であることがわかった。
タスクレベルでのLLMのパフォーマンスを予測するためのメトリクスを構築し、LLMがうまく機能する可能性のあるタスクと、それらが適さない可能性のあるタスクを区別することを目的としている。
論文 参考訳(メタデータ) (2025-09-18T18:57:05Z) - Beyond Naïve Prompting: Strategies for Improved Zero-shot Context-aided Forecasting with LLMs [57.82819770709032]
大規模言語モデル (LLM) は、na "ive direct prompting" を通じて効果的な文脈支援予測を行うことができる。
ReDPは、明確な推論トレースを抽出することで、解釈可能性を改善し、コンテキスト上でモデルの推論を評価することができる。
CorDPはLLMを活用して、既存の予測をコンテキストで洗練し、現実の予測パイプラインにおける適用性を高める。
IC-DPは、文脈支援予測タスクの歴史的例を即時に組み込むことを提案し、大規模モデルにおいても精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-08-13T16:02:55Z) - From Text to Time? Rethinking the Effectiveness of the Large Language Model for Time Series Forecasting [22.052783052469344]
時系列予測のバックボーンとして事前訓練された大言語モデル(LLMs)を用いることは、近年、大きな研究関心を集めている。
小さなデータセット上でのLCMベースのモデルのトレーニングとテストは、しばしばDecoderとDecoderがデータセットに過度に適応するようになることを観察する。
大規模な実験により、LSMのバックボーンはある程度の可能性を証明しているが、予測性能は限られていることが明らかになった。
論文 参考訳(メタデータ) (2025-04-09T13:20:09Z) - Dynamic Uncertainty Ranking: Enhancing Retrieval-Augmented In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Evaluating Large Language Models for Health-Related Text Classification Tasks with Public Social Media Data [3.9459077974367833]
大規模言語モデル(LLM)は、NLPタスクにおいて顕著な成功を収めた。
我々は、サポートベクトルマシン(SVM)に基づく教師付き古典機械学習モデルと、RoBERTa、BERTweet、SocBERTに基づく3つの教師付き事前訓練言語モデル(PLM)と、6つのテキスト分類タスクで2つのLLMベースの分類器(GPT3.5、GPT4)をベンチマークした。
LLM(GPT-4)を用いた軽量教師付き分類モデルの訓練には,比較的小さな人手によるデータ拡張(GPT-4)が有効であることを示す総合的な実験を行った。
論文 参考訳(メタデータ) (2024-03-27T22:05:10Z) - Search-based Optimisation of LLM Learning Shots for Story Point
Estimation [3.5365325264937897]
探索に基づく手法を用いて,LLMの推定性能を向上させる実例の数と組み合わせを最適化する。
予備実験の結果,SBSE法によりLLMの推定性能は平均59.34%向上した。
論文 参考訳(メタデータ) (2024-03-13T11:29:37Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。