論文の概要: An LLM-based multi-agent framework for agile effort estimation
- arxiv url: http://arxiv.org/abs/2509.14483v1
- Date: Wed, 17 Sep 2025 23:26:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.002204
- Title: An LLM-based multi-agent framework for agile effort estimation
- Title(参考訳): LLMに基づくアジャイル活動推定のためのマルチエージェントフレームワーク
- Authors: Thanh-Long Bui, Hoa Khanh Dam, Rashina Hoda,
- Abstract要約: チームがプロダクトバックログでユーザストーリーを完成させるのに必要な労力を共同でレビューし、議論し、見積もりする。
アジャイルの取り組み見積の現在のプラクティスは、主観的な評価に大きく依存しており、見積もりの不正確さと矛盾につながります。
我々は、アジャイル見積もりのための新しいマルチエージェントフレームワークを提案する。これは見積もりを生成できるだけでなく、人間開発者や他のエージェントと協調し、コミュニケーションし、議論することで合意に達することができる。
- 参考スコア(独自算出の注目度): 11.458115351010699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effort estimation is a crucial activity in agile software development, where teams collaboratively review, discuss, and estimate the effort required to complete user stories in a product backlog. Current practices in agile effort estimation heavily rely on subjective assessments, leading to inaccuracies and inconsistencies in the estimates. While recent machine learning-based methods show promising accuracy, they cannot explain or justify their estimates and lack the capability to interact with human team members. Our paper fills this significant gap by leveraging the powerful capabilities of Large Language Models (LLMs). We propose a novel LLM-based multi-agent framework for agile estimation that not only can produce estimates, but also can coordinate, communicate and discuss with human developers and other agents to reach a consensus. Evaluation results on a real-life dataset show that our approach outperforms state-of-the-art techniques across all evaluation metrics in the majority of the cases. Our human study with software development practitioners also demonstrates an overwhelmingly positive experience in collaborating with our agents in agile effort estimation.
- Abstract(参考訳): チームがプロダクトバックログでユーザストーリーを完成させるのに必要な労力を共同でレビューし、議論し、見積もりする。
アジャイルの取り組み見積の現在のプラクティスは、主観的な評価に大きく依存しており、見積もりの不正確さと矛盾につながります。
最近の機械学習ベースの手法は有望な精度を示すが、見積もりの説明や正当化はできず、人間のチームメンバーと対話する能力も欠如している。
本稿では,Large Language Models(LLM)の強力な機能を活用することで,この大きなギャップを埋める。
我々は、アジャイル見積もりのための新しいLLMベースのマルチエージェントフレームワークを提案する。これは見積もりを生成できるだけでなく、人間開発者や他のエージェントと協調し、コミュニケーションし、議論することで合意に達することができる。
実生活データセットによる評価結果から,本手法は,ほとんどの場合において,すべての評価指標において最先端技術よりも優れることが示された。
ソフトウェア開発の実践者との人間による研究は、アジャイルの努力見積でエージェントとコラボレーションする上で、圧倒的に肯定的な経験を示しています。
関連論文リスト
- Interactive Evaluation of Large Language Models for Multi-Requirement Software Engineering Tasks [15.072898489107887]
55のプログラミングタスクのベンチマークであるDevAIの上に構築し、基礎的真実のソリューションを追加し、インタビュアーヒントの妥当性と有用性を評価する。
本研究は,協調型コード生成エージェントの開発における動的評価の重要性を強調した。
論文 参考訳(メタデータ) (2025-08-26T10:22:37Z) - Evaluations at Work: Measuring the Capabilities of GenAI in Use [28.124088786766965]
現在のAIベンチマークは、人間とAIのコラボレーションの混乱したマルチターンの性質を見逃している。
実世界のタスクを相互依存サブタスクに分解する評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T23:06:23Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。