論文の概要: Sharp Tools: How Developers Wield Agentic AI in Real Software Engineering Tasks
- arxiv url: http://arxiv.org/abs/2506.12347v2
- Date: Tue, 17 Jun 2025 17:49:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 13:08:30.101869
- Title: Sharp Tools: How Developers Wield Agentic AI in Real Software Engineering Tasks
- Title(参考訳): Sharp Tools: 実際のソフトウェアエンジニアリングタスクにおけるエージェントAIの扱い方
- Authors: Aayush Kumar, Yasharth Bajpai, Sumit Gulwani, Gustavo Soares, Emerson Murphy-Hill,
- Abstract要約: ソフトウェアエンジニアリングエージェント(SWEエージェント)は、SWE Benchのようなベンチマーク上で、自律的に開発タスクを実行することができる。
SWEエージェントは、しばしば開発者との対話を可能にし、協調的な問題解決を可能にするように設計されている。
私たちは、以前コントリビュートしたリポジトリの33のオープンイシューを解決するために、IDEエージェントを使用した19の開発者を観察しました。
- 参考スコア(独自算出の注目度): 9.398561660120349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Software Engineering Agents (SWE agents) can autonomously perform development tasks on benchmarks like SWE Bench, but still face challenges when tackling complex and ambiguous real-world tasks. Consequently, SWE agents are often designed to allow interactivity with developers, enabling collaborative problem-solving. To understand how developers collaborate with SWE agents and the communication challenges that arise in such interactions, we observed 19 developers using an in-IDE agent to resolve 33 open issues in repositories to which they had previously contributed. Participants successfully resolved about half of these issues, with participants solving issues incrementally having greater success than those using a one-shot approach. Participants who actively collaborated with the agent and iterated on its outputs were also more successful, though they faced challenges in trusting the agent's responses and collaborating on debugging and testing. These results have implications for successful developer-agent collaborations, and for the design of more effective SWE agents.
- Abstract(参考訳): ソフトウェアエンジニアリングエージェント(SWEエージェント)は、SWE Benchのようなベンチマーク上で、自律的に開発タスクを実行することができる。
その結果、SWEエージェントは開発者との対話を可能にし、協調的な問題解決を可能にするように設計されている。
開発者がSWEエージェントとどのように協力し,そのようなインタラクションで発生するコミュニケーション課題を理解するために,これまでコントリビュートしてきたリポジトリにおいて,33のオープンイシューを解決するためにIDEエージェントを使用した19人の開発者が観察した。
参加者はこれらの問題の約半数を解決し、参加者はワンショットアプローチを使用する場合よりも、漸進的に成功する課題を解決した。
エージェントと積極的に協力し、そのアウトプットを反復した参加者も成功したが、エージェントの反応を信頼し、デバッグとテストに協力するという課題に直面した。
これらの結果は、開発者とエージェントのコラボレーションの成功や、より効果的なSWEエージェントの設計に影響を及ぼす。
関連論文リスト
- Collaborative Gym: A Framework for Enabling and Evaluating Human-Agent Collaboration [51.452664740963066]
Collaborative Gymは、エージェント、人間、タスク環境間の非同期で三分割的なインタラクションを可能にするフレームワークである。
シミュレーション条件と実環境条件の両方において,Co-Gymを3つの代表的なタスクでインスタンス化する。
その結果、協調作業員はタスクパフォーマンスにおいて、完全に自律的なエージェントよりも一貫して優れていたことが判明した。
論文 参考訳(メタデータ) (2024-12-20T09:21:15Z) - A Survey on Complex Tasks for Goal-Directed Interactive Agents [60.53915548970061]
この調査は、目標指向の対話エージェントを評価するための、関連するタスクと環境をコンパイルする。
関連リソースの最新のコンパイルは、プロジェクトのWebサイトにある。
論文 参考訳(メタデータ) (2024-09-27T08:17:53Z) - Experiential Co-Learning of Software-Developing Agents [83.34027623428096]
大規模言語モデル(LLM)は、特にソフトウェア開発において、様々な領域に大きな変化をもたらした。
本稿では,新しいLLM学習フレームワークであるExperiential Co-Learningを紹介する。
実験では、このフレームワークにより、エージェントは、目に見えないソフトウェア開発タスクをより効果的に対処できることを示した。
論文 参考訳(メタデータ) (2023-12-28T13:50:42Z) - Multi-Agent Consensus Seeking via Large Language Models [6.336670103502898]
大規模言語モデル(LLM)によって駆動されるマルチエージェントシステムは、複雑なタスクを協調的に解決する有望な能力を示している。
この研究は、マルチエージェントコラボレーションにおける根本的な問題であるコンセンサス探索について考察する。
論文 参考訳(メタデータ) (2023-10-31T03:37:11Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Learning to Solve Complex Tasks by Talking to Agents [39.08818632689814]
人間は、単純なサブタスクを解くことができるAIアシスタントのような既存のエージェントと対話することで、複雑な問題を解決することが多い。
一般的なNLPベンチマークは、タスク毎に自己充足型モデルを開発することを目的としている。
我々は,異なる能力を持つ4つのエージェントに対して「会話」によって解決されるように設計された3種類の複雑な推論タスクを含むCommaQAという新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-10-16T10:37:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。