Fugu-MT 論文翻訳(概要): A Case Study Investigating the Role of Generative AI in Quality Evaluations of Epics in Agile Software Development

論文の概要: A Case Study Investigating the Role of Generative AI in Quality Evaluations of Epics in Agile Software Development

arxiv url: http://arxiv.org/abs/2505.07664v1
Date: Mon, 12 May 2025 15:31:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-13 20:21:49.45656
Title: A Case Study Investigating the Role of Generative AI in Quality Evaluations of Epics in Agile Software Development
Title（参考訳）: アジャイルソフトウェア開発における画像の品質評価における生成AIの役割に関する事例研究
Authors: Werner Geyer, Jessica He, Daita Sarkar, Michelle Brachman, Chris Hammond, Jennifer Heins, Zahra Ashktorab, Carlos Rosemberg, Charlie Hill,
Abstract要約: グローバルな企業において,大規模言語モデルによるアジャイルエピックの品質評価の機会について検討する。高いレベルの満足度は、アジャイルエピックがAI評価の新しい、実行可能な応用であることを示している。
参考スコア（独自算出の注目度）: 7.239833814703049
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The broad availability of generative AI offers new opportunities to support various work domains, including agile software development. Agile epics are a key artifact for product managers to communicate requirements to stakeholders. However, in practice, they are often poorly defined, leading to churn, delivery delays, and cost overruns. In this industry case study, we investigate opportunities for large language models (LLMs) to evaluate agile epic quality in a global company. Results from a user study with 17 product managers indicate how LLM evaluations could be integrated into their work practices, including perceived values and usage in improving their epics. High levels of satisfaction indicate that agile epics are a new, viable application of AI evaluations. However, our findings also outline challenges, limitations, and adoption barriers that can inform both practitioners and researchers on the integration of such evaluations into future agile work practices.
Abstract（参考訳）: 生成AIが広く利用可能になったことで、アジャイルソフトウェア開発を含むさまざまな作業領域をサポートする新たな機会が提供される。アジャイルエピックは、プロダクトオーナーがステークホルダーに要求を伝えるための重要な成果物です。しかし、実際には、しばしば定義が不十分で、混乱、納品遅延、コスト超過につながります。この業界ケーススタディでは,グローバル企業において,大規模言語モデル(LLM)がアジャイルのエピック品質を評価する機会について検討する。 17のプロダクトマネージャによるユーザスタディの結果は、LLMの評価が、エピックを改善する上での認識値や使用法など、彼らの作業プラクティスにどのように統合できるかを示している。高いレベルの満足度は、アジャイルエピックがAI評価の新しい、実行可能な応用であることを示している。しかしながら、私たちの調査結果は、実践者と研究者の両方に、将来のアジャイル作業プラクティスへのこのような評価の統合を知らせる上での課題、制限、導入障壁についても概説しています。

関連論文リスト

More Code, Less Reuse: Investigating Code Quality and Reviewer Sentiment towards AI-generated Pull Requests [1.2314765641075438]
大規模言語モデル(LLM)エージェントは急速に進歩しており、コード生成のような開発タスクを支援するためにLLMエージェントの利用が増加している。既存のメトリクスは、パスレートのみを計測し、長期的な保守性と可読性への影響を反映しない。コードメトリクスに基づいてPR内のコード品質と保守性を観察し、人間とLLM世代の両方からのプルリクエストに対する客観的特性と開発者の反応を評価する。
論文参考訳（メタデータ） (2026-01-29T05:13:21Z)
Let the Barbarians In: How AI Can Accelerate Systems Performance Research [80.43506848683633]
我々は、この繰り返しサイクルを、AI駆動システム研究の生成、評価、洗練のサイクルと呼ぶ。我々はADRSが生成するソリューションが人間の最先端の設計に適合し、さらに優れることを示した。
論文参考訳（メタデータ） (2025-12-16T18:51:23Z)
LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文参考訳（メタデータ） (2025-11-17T23:57:24Z)
Prompting in Practice: Investigating Software Developers' Use of Generative AI Tools [17.926187565860232]
生成人工知能(GenAI)ツールの統合は、ソフトウェア開発を根本的に変えた。本研究は,ソフトウェア技術者がGenAIツールをプロフェッショナルな実践に統合する方法について,体系的な調査を行ったものである。我々は、開発プロセス全体でAIの使用パターンを理解するために、アクティブなGenAIユーザ72人を含む91人のソフトウェアエンジニアを調査した。
論文参考訳（メタデータ） (2025-10-07T15:02:22Z)
An LLM-based multi-agent framework for agile effort estimation [11.458115351010699]
チームがプロダクトバックログでユーザストーリーを完成させるのに必要な労力を共同でレビューし、議論し、見積もりする。アジャイルの取り組み見積の現在のプラクティスは、主観的な評価に大きく依存しており、見積もりの不正確さと矛盾につながります。我々は、アジャイル見積もりのための新しいマルチエージェントフレームワークを提案する。これは見積もりを生成できるだけでなく、人間開発者や他のエージェントと協調し、コミュニケーションし、議論することで合意に達することができる。
論文参考訳（メタデータ） (2025-09-17T23:26:43Z)
CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文参考訳（メタデータ） (2025-08-28T06:03:11Z)
The SPACE of AI: Real-World Lessons on AI's Impact on Developers [0.807084206814932]
我々は,SPACEフレームワークの次元にまたがるAIの影響,すなわち満足度,パフォーマンス,アクティビティ,コラボレーション,効率を,開発者がどのように認識するかを研究する。 AIは広く採用されており、生産性の向上、特にルーチンタスクに広く見なされている。開発者の報告によると、効率性と満足度は向上し、コラボレーションへの影響の証拠は少なくなった。
論文参考訳（メタデータ） (2025-07-31T21:45:54Z)
Code with Me or for Me? How Increasing AI Automation Transforms Developer Workflows [60.04362496037186]
本研究は,コーディングエージェントと開発者インタラクションを制御した最初の研究である。我々は,2つの主要な協調型およびエージェント型符号化アシスタントの評価を行った。結果から,エージェントはコピロトを超える方法で開発者を支援することができることがわかった。
論文参考訳（メタデータ） (2025-07-10T20:12:54Z)
The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文参考訳（メタデータ） (2025-06-09T18:37:14Z)
Exploring Prompt Patterns in AI-Assisted Code Generation: Towards Faster and More Effective Developer-AI Collaboration [3.1861081539404137]
本稿では,AI支援コード生成に必要となるインタラクション数を最小化するために,構造化されたプロンプトパターンの適用について検討する。我々は,開発者とAI間の往復通信を減らすことの有効性を評価するために,異なる7つのプロンプトパターンを分析した。
論文参考訳（メタデータ） (2025-06-02T12:43:08Z)
FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks [52.47895046206854]
FieldWorkArenaは、現実世界のフィールドワークをターゲットにしたエージェントAIのベンチマークである。本稿では、エージェントAIが現実世界の作業環境ベンチマークのために持つべき新しいアクション空間を定義する。
論文参考訳（メタデータ） (2025-05-26T08:21:46Z)
Human-AI Experience in Integrated Development Environments: A Systematic Literature Review [2.1749194587826026]
In-IDE HAXはAI支援コーディング環境におけるヒューマン・コンピュータインタラクションの進化するダイナミクスを探求する。この結果から,AIによるコーディングによって開発者の生産性が向上するだけでなく,検証オーバーヘッドや自動化バイアス,信頼性の過大化といった課題も生じていることがわかった。コードの正確性、セキュリティ、保守性に関する懸念は、説明可能性、検証メカニズム、適応的なユーザコントロールに対する緊急の必要性を浮き彫りにする。
論文参考訳（メタデータ） (2025-03-08T12:40:18Z)
How to Measure Performance in Agile Software Development? A Mixed-Method Study [2.477589198476322]
この研究は、アジャイルソフトウェア開発のパフォーマンス指標を実際に使用するときに生じる課題を特定することを目的としている。結果として、広く使用されているパフォーマンスメトリクスが実際に広く使用されている一方で、アジャイルソフトウェア開発チームは透明性と標準化の欠如と不十分な正確性のために、課題に直面しています。
論文参考訳（メタデータ） (2024-07-08T19:53:01Z)
WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。 WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文参考訳（メタデータ） (2024-07-07T07:15:49Z)
A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models [71.25225058845324]
大規模言語モデル(LLM)は、言語理解と生成において革命的な能力を示している。 Retrieval-Augmented Generation (RAG)は、信頼性と最新の外部知識を提供する。 RA-LLMは、モデルの内部知識に頼るのではなく、外部および権威的な知識ベースを活用するために登場した。
論文参考訳（メタデータ） (2024-05-10T02:48:45Z)
ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文参考訳（メタデータ） (2023-08-14T15:13:04Z)
Comparing Software Developers with ChatGPT: An Empirical Investigation [0.0]
本稿では,ChatGPTのようなソフトウェア技術者やAIシステムのパフォーマンスを,さまざまな評価指標で比較した実証的研究を行う。この論文は、さまざまな評価基準を考慮して、ソフトウェアエンジニアとAIベースのソリューションの包括的な比較が、人間と機械のコラボレーションを促進する上で重要であることを示唆している。
論文参考訳（メタデータ） (2023-05-19T17:25:54Z)
AI for Agile development: a Meta-Analysis [0.0]
本研究では,人工知能とアジャイルソフトウェア開発方法論を統合することのメリットと課題について検討する。このレビューは、特別な社会技術専門知識の必要性など、重要な課題を特定するのに役立った。プロセスや実践者への影響をよりよく理解し、その実装に関連する間接的な課題に対処するためには、さらなる研究が必要である。
論文参考訳（メタデータ） (2023-05-14T08:10:40Z)
OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文参考訳（メタデータ） (2023-04-10T03:55:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。