論文の概要: Efficient Story Point Estimation With Comparative Learning
- arxiv url: http://arxiv.org/abs/2507.14642v1
- Date: Sat, 19 Jul 2025 14:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.983264
- Title: Efficient Story Point Estimation With Comparative Learning
- Title(参考訳): 比較学習による効率的なストーリーポイント推定
- Authors: Monoshiz Mahbub Khan, Xioayin Xi, Andrew Meneely, Zhe Yu,
- Abstract要約: ストーリーポイントの推定はアジャイルソフトウェア開発の重要な部分です。
伝統的に、開発者はプランニングポーカーや他の手動技術を使ってストーリーポイントを共同で見積もる。
機械学習は、この負担を軽減できますが、プロジェクトチームによる歴史的決定から十分なコンテキストでしかありません。
- 参考スコア(独自算出の注目度): 4.2396247450279185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Story point estimation is an essential part of agile software development. Story points are unitless, project-specific effort estimates that help developers plan their sprints. Traditionally, developers estimate story points collaboratively using planning poker or other manual techniques. While the initial calibrating of the estimates to each project is helpful, once a team has converged on a set of precedents, story point estimation can become tedious and labor-intensive. Machine learning can reduce this burden, but only with enough context from the historical decisions made by the project team. That is, state-of-the-art models, such as GPT2SP and FastText-SVM, only make accurate predictions (within-project) when trained on data from the same project. The goal of this work is to streamline story point estimation by evaluating a comparative learning-based framework for calibrating project-specific story point prediction models. Instead of assigning a specific story point value to every backlog item, developers are presented with pairs of items, and indicate which item requires more effort. Using these comparative judgments, a machine learning model is trained to predict the story point estimates. We empirically evaluated our technique using data with 23,313 manual estimates in 16 projects. The model learned from comparative judgments can achieve on average 0.34 Spearman's rank correlation coefficient between its predictions and the ground truth story points. This is similar to, if not better than, the performance of a regression model learned from the ground truth story points. Therefore, the proposed comparative learning approach is more efficient than state-of-the-art regression-based approaches according to the law of comparative judgments - providing comparative judgments yields a lower cognitive burden on humans than providing ratings or categorical labels.
- Abstract(参考訳): ストーリーポイントの推定はアジャイルソフトウェア開発の重要な部分です。
ストーリーポイントは、開発者がスプリントを計画するのに役立つ、単体、プロジェクト固有の取り組み見積です。
伝統的に、開発者はプランニングポーカーや他の手動技術を使ってストーリーポイントを共同で見積もる。
見積もりを各プロジェクトに対して最初のキャリブレーションすることは役に立つが、チームが一連の前例に収束すると、ストーリーポイントの見積もりは退屈で労働集約的になる。
機械学習は、この負担を軽減できますが、プロジェクトチームによる歴史的決定から十分なコンテキストでしかありません。
つまり、GPT2SPやFastText-SVMのような最先端のモデルは、同じプロジェクトからのデータでトレーニングされたときにのみ正確な予測(プロジェクト内)を行います。
本研究の目的は,プロジェクト固有のストーリーポイント予測モデルを校正するための比較学習ベースのフレームワークを評価することで,ストーリーポイント推定の合理化である。
各バックログ項目に特定のストーリーポイント値を割り当てる代わりに、開発者はアイテムのペアを提示し、どのアイテムにもっと努力を要するかを示す。
これらの比較判断を用いて、機械学習モデルはストーリーポイントの推定を予測するために訓練される。
16件のプロジェクトにおいて,23,313個の手動推定データを用いて実験を行った。
比較判断から得られたモデルは、平均0.34Spearmanのランク相関係数とその予測と基底真実のストーリーポイントで達成できる。
これは、根底にある真実のストーリーポイントから学んだ回帰モデルのパフォーマンスと似ている。
したがって、比較学習アプローチは、比較判断の法則に従って、最先端の回帰に基づくアプローチよりも効率的である。
関連論文リスト
- How to Select Datapoints for Efficient Human Evaluation of NLG Models? [57.60407340254572]
我々は,人間の評価に最も有用なデータポイントを得るために,セレクタスイートを開発し,分析する。
本研究では,自動測定値の分散に基づくセレクタ,モデル出力の多様性,項目応答理論がランダム選択より優れていることを示す。
特に,情報源に基づく推定手法を導入し,情報源のテキストに基づいて人体評価に有用な項目を推定する。
論文 参考訳(メタデータ) (2025-01-30T10:33:26Z) - SureMap: Simultaneous Mean Estimation for Single-Task and Multi-Task Disaggregated Evaluation [75.56845750400116]
分散評価(disaggregated evaluation) -- 異なるサブポピュレーション上での機械学習モデルのパフォーマンスの推定 - は、AIシステムのパフォーマンスとグループフェアネスを評価する上で、中核的なタスクである。
ブラックボックスモデルの評価において,マルチタスクとシングルタスクの双方に対して高い推定精度を持つSureMapを開発した。
提案手法は, ウェル・チョーゼンを用いた最大後部推定と, スタインの非バイアスリスク推定(SURE)によるクロスバリデーションフリーチューニングを併用する。
論文 参考訳(メタデータ) (2024-11-14T17:53:35Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - A Framework for Efficient Model Evaluation through Stratification, Sampling, and Estimation [17.351089059392674]
本稿では,階層化,サンプリング,推定を含むモデル評価のためのフレームワークを提案する。
モデル性能の正確な予測に基づいて,k平均クラスタリングによる成層化を行うことで,効率的に推定できることを示す。
また、データセットのラベル付けされていない部分におけるモデル精度の予測を利用するモデル支援推定器は、一般的に従来の推定値よりも効率的であることがわかった。
論文 参考訳(メタデータ) (2024-06-11T14:49:04Z) - Team-related Features in Code Review Prediction Models [10.576931077314887]
コードオーナシップ、ワークロード、チーム関係に関連する機能の予測能力を評価します。
結果から,コードオーナシップに関連する機能が最も優れた予測能力を持つことが示唆された。
提案されたすべての機能とコード行を合わせることで、レビュアーの参加とフィードバックの量の両方に最適な予測ができると結論付けます。
論文 参考訳(メタデータ) (2023-12-11T09:30:09Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - An Empirical Study on Data Leakage and Generalizability of Link
Prediction Models for Issues and Commits [7.061740334417124]
LinkFormerは既存の予測の精度を保存し、改善する。
実世界のシナリオを効果的にシミュレートするためには、研究者はデータの時間的流れを維持する必要がある。
論文 参考訳(メタデータ) (2022-11-01T10:54:26Z) - Heterogeneous Graph Neural Networks for Software Effort Estimation [2.652428960991066]
ストーリーポイントを自動的に推定する現在のアプローチは、事前学習された埋め込みモデルの適用と、テキスト回帰のためのディープラーニングに焦点を当てている。
アジャイルソフトウェアプロジェクトの問題のテキスト入力からストーリーポイントを推定するツールであるHeteroSPを提案する。
論文 参考訳(メタデータ) (2022-06-22T12:46:02Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。