論文の概要: Agile Story-Point Estimation: Is RAG a Better Way to Go?
- arxiv url: http://arxiv.org/abs/2604.03443v1
- Date: Fri, 03 Apr 2026 20:35:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.581367
- Title: Agile Story-Point Estimation: Is RAG a Better Way to Go?
- Title(参考訳): アジャイルストーリーポイントの推定: RAGはより良い方法なのだろうか?
- Authors: Lamyea Maha, Tajmilur Rahman, Chanchal Roy,
- Abstract要約: アジャイルソフトウェア開発手法では、開発作業を測定する共通の単位がストーリーポイント(SP)である。
本研究では,この手作業の自動化をRAG(Retrieval Augmented Generation)を用いて検討した。
RAGは"Retriever"と"Generator"から構成される
- 参考スコア(独自算出の注目度): 1.8058989449321545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The sprint-based iterative approach in the Agile software development method allows continuous feedback and adaptation. One of the crucial Agile software development activities is the sprint planning session where developers estimate the effort required to complete tasks through a consensus-based estimation technique such as Planning Poker. In the Agile software development method, a common unit of measuring development effort is Story Point (SP) which is assigned to tasks to understand the complexity and development time needed to complete them. Despite the benefits of this process, it is an extremely time-consuming manual process. To mitigate this issue, in this study, we investigated if this manual process can be automated using Retrieval Augmented Generation (RAG) which comprises a "Retriever" and a "Generator". We applied two embedding models - bge-large-en-v1.5, and Sentence-Transformers' all-mpnet-base-v2 on 23 open-source software projects of varying sizes and examined four key aspects: 1) how retrieval hyper-parameters influence the performance, 2) whether estimation accuracy differs across different sizes of the projects, 3) whether embedding model choice affects accuracy, and 4) how the RAG-based approach compares to the existing baselines. Although the RAG-based approach outperformed the baseline models in several occasions, our results did not exhibit statistically significant differences in performance across the projects or across the embedding models. This highlights the need for further studies and refinement of the RAG, and model adaptation strategies for better accuracy in automatically estimating user stories.
- Abstract(参考訳): アジャイルソフトウェア開発手法におけるスプリントベースの反復的アプローチは、継続的なフィードバックと適応を可能にします。
重要なアジャイルソフトウェア開発活動の1つはスプリント計画セッションで、開発者はプランニングポーカーのようなコンセンサスベースの見積もり手法によってタスクを完了させるために必要な労力を見積もる。
アジャイルソフトウェア開発の手法では、開発作業を計測する共通の単位としてストーリーポイント(SP)があり、それを完了するのに必要な複雑さと開発時間を理解するためにタスクに割り当てられます。
このプロセスの利点にもかかわらず、非常に時間を要する手作業です。
この問題を軽減するため,本稿では,この手作業プロセスがRetrieverとGeneratorを組み合わせたRetrieval Augmented Generation (RAG)を用いて自動化可能かどうかを検討した。
bge-large-en-v1.5 と Sentence-Transformers の All-mpnet-base-v2 の 2 つの埋め込みモデルを適用した。
1)ハイパーパラメータの検索がパフォーマンスにどのように影響するか。
2)プロジェクトの規模によって推定精度が異なるか。
3 埋め込みモデル選択が精度に影響を及ぼすか否か、及び
4)RAGベースのアプローチが既存のベースラインとどのように比較されるか。
RAGをベースとした手法はベースラインモデルにいくつかの性能を与えたが,本研究の結果は,プロジェクトや組込みモデルに比較して,統計的に有意な差は認められなかった。
このことは、RAGのさらなる研究と改善の必要性を強調し、ユーザーストーリーを自動的に見積もる精度を高めるためのモデル適応戦略を強調している。
関連論文リスト
- ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z) - Multi-Agent Systems for Dataset Adaptation in Software Engineering: Capabilities, Limitations, and Future Directions [8.97512410819274]
本稿では,データセット適応タスクにおいて,最先端のマルチエージェントシステムがどのように機能するかについて,最初の実証的研究を行う。
我々は、GitHub Copilotを評価し、ROCODEやLogHub2.0といったベンチマークリポジトリからSE研究成果物を適用する。
その結果、現在のシステムはキーファイルを識別し、部分的な適応を生成することができるが、正しい実装を生成することは滅多にない。
論文 参考訳(メタデータ) (2025-11-26T13:26:11Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - Lingma SWE-GPT: An Open Development-Process-Centric Language Model for Automated Software Improvement [62.94719119451089]
Lingma SWE-GPTシリーズは、現実世界のコード提出活動から学び、シミュレーションする。
Lingma SWE-GPT 72BはGitHubの30.20%の問題を解決する。
論文 参考訳(メタデータ) (2024-11-01T14:27:16Z) - Patched RTC: evaluating LLMs for diverse software development tasks [1.14219428942199]
本稿では,Large Language Models (LLM) の新たな評価手法であるPatched Round-Trip Correctness (Patched RTC)を紹介する。
Patched RTCは、人間の介入なしにモデルの応答の一貫性と堅牢性を測定する、自己評価フレームワークを提供する。
GPT-3.5とGPT-4を異なるソフトウェア開発タスクで比較した結果、Patched RTCはモデルの性能とタスクの難易度を効果的に区別することがわかった。
論文 参考訳(メタデータ) (2024-07-23T15:12:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。