Fugu-MT 論文翻訳(概要): Sharp Tools: How Developers Wield Agentic AI in Real Software Engineering Tasks

論文の概要: Sharp Tools: How Developers Wield Agentic AI in Real Software Engineering Tasks

arxiv url: http://arxiv.org/abs/2506.12347v2
Date: Tue, 17 Jun 2025 17:49:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-18 13:08:30.101869
Title: Sharp Tools: How Developers Wield Agentic AI in Real Software Engineering Tasks
Title（参考訳）: Sharp Tools: 実際のソフトウェアエンジニアリングタスクにおけるエージェントAIの扱い方
Authors: Aayush Kumar, Yasharth Bajpai, Sumit Gulwani, Gustavo Soares, Emerson Murphy-Hill,
Abstract要約: ソフトウェアエンジニアリングエージェント(SWEエージェント)は、SWE Benchのようなベンチマーク上で、自律的に開発タスクを実行することができる。 SWEエージェントは、しばしば開発者との対話を可能にし、協調的な問題解決を可能にするように設計されている。私たちは、以前コントリビュートしたリポジトリの33のオープンイシューを解決するために、IDEエージェントを使用した19の開発者を観察しました。
参考スコア（独自算出の注目度）: 9.398561660120349
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Software Engineering Agents (SWE agents) can autonomously perform development tasks on benchmarks like SWE Bench, but still face challenges when tackling complex and ambiguous real-world tasks. Consequently, SWE agents are often designed to allow interactivity with developers, enabling collaborative problem-solving. To understand how developers collaborate with SWE agents and the communication challenges that arise in such interactions, we observed 19 developers using an in-IDE agent to resolve 33 open issues in repositories to which they had previously contributed. Participants successfully resolved about half of these issues, with participants solving issues incrementally having greater success than those using a one-shot approach. Participants who actively collaborated with the agent and iterated on its outputs were also more successful, though they faced challenges in trusting the agent's responses and collaborating on debugging and testing. These results have implications for successful developer-agent collaborations, and for the design of more effective SWE agents.
Abstract（参考訳）: ソフトウェアエンジニアリングエージェント(SWEエージェント)は、SWE Benchのようなベンチマーク上で、自律的に開発タスクを実行することができる。その結果、SWEエージェントは開発者との対話を可能にし、協調的な問題解決を可能にするように設計されている。開発者がSWEエージェントとどのように協力し,そのようなインタラクションで発生するコミュニケーション課題を理解するために,これまでコントリビュートしてきたリポジトリにおいて,33のオープンイシューを解決するためにIDEエージェントを使用した19人の開発者が観察した。参加者はこれらの問題の約半数を解決し、参加者はワンショットアプローチを使用する場合よりも、漸進的に成功する課題を解決した。エージェントと積極的に協力し、そのアウトプットを反復した参加者も成功したが、エージェントの反応を信頼し、デバッグとテストに協力するという課題に直面した。これらの結果は、開発者とエージェントのコラボレーションの成功や、より効果的なSWEエージェントの設計に影響を及ぼす。

関連論文リスト

CooperBench: Why Coding Agents Cannot be Your Teammates Yet [44.06715229961526]
CooperBenchは、4つのプログラミング言語で12のライブラリにまたがる600以上の協調コーディングタスクのベンチマークである。エージェントは、両方のタスクを個別に実行するよりも、一緒に働く場合の平均30%低い成功率を達成する。分析の結果,(1)コミュニケーションチャネルは不明瞭で不正確なメッセージに悩まされる,(2)効果的なコミュニケーションであっても,エージェントはコミットメントから逸脱する,(3)エージェントが他人の計画やコミュニケーションに対して誤った期待を抱いている,という3つの重要な問題が明らかになった。
論文参考訳（メタデータ） (2026-01-19T18:48:37Z)
The Collaboration Gap [28.553543260404425]
i)協調機能を分離し,(ii)問題複雑性を変調し,(iii)スケーラブルな自動グレーディングを可能にし,(iv)出力制約を課さない協調迷路解決ベンチマークを提案する。このフレームワークを用いて、32個のオープンソースおよびクローズドソースモデルを、単独、同種、異種ペアリングで評価する。私たちの結果からは,“コラボレーションギャップ”が明らかになっている。
論文参考訳（メタデータ） (2025-11-04T16:10:57Z)
Completion $\ eq$ Collaboration: Scaling Collaborative Effort with Agents [48.95020665909723]
タスク完了エージェントの構築と評価から,協調エージェントの開発への移行を議論する。エージェントのユーティリティがユーザ関与の増加とともにどのように成長するかをキャプチャするフレームワークであるコラボレーティブ・ワーク・スケーリングを紹介します。
論文参考訳（メタデータ） (2025-10-29T17:47:18Z)
Cross-Task Experiential Learning on LLM-based Multi-Agent Collaboration [63.90193684394165]
マルチエージェント・クロスタスク体験学習(MAEL)は,LSM駆動型エージェントに明示的なクロスタスク学習と経験蓄積を付与する新しいフレームワークである。経験的学習フェーズでは、タスク解決ワークフローの各ステップの品質を定量化し、その結果の報酬を記憶する。推論中、エージェントは、各推論ステップの有効性を高めるために、いくつかの例として、高頻度のタスク関連体験を検索する。
論文参考訳（メタデータ） (2025-05-29T07:24:37Z)
Collaborative Problem-Solving in an Optimization Game [52.005042190810116]
本稿では,エージェントが協調して2人プレイのトラベリングセールスマン問題を解く対話ゲームを紹介する。我々のベストエージェントは、ゲームの45%を最適に自己プレイで解決します。また、人間のユーザーとうまく協力し、馴染みのないグラフに一般化する能力も示している。
論文参考訳（メタデータ） (2025-05-21T13:15:35Z)
Assistance or Disruption? Exploring and Evaluating the Design and Trade-offs of Proactive AI Programming Support [23.409008559160256]
我々は,エディタアクティビティとタスクコンテキストに基づいたプログラミング支援を開始するデザインプローブエージェントであるCodellaboratorを紹介し,評価する。プロアクティブエージェントは、プロンプトのみのパラダイムに比べて効率が向上するが、ワークフローの混乱も引き起こす。
論文参考訳（メタデータ） (2025-02-25T21:37:25Z)
Who is to Blame: A Comprehensive Review of Challenges and Opportunities in Designer-Developer Collaboration [20.90113991224472]
ソフトウェア開発は、高品質でユーザビリティの高いソフトウェア製品を作成するために、ソフトウェア開発エンジニア(SDE)とユーザeXperience Designers(UXD)の効果的なコラボレーションに依存します。我々は2004年から発行された45の論文の体系的な文献レビューを行い、3つの主要なコラボレーション課題と2つの潜在的なベストプラクティスのカテゴリを明らかにした。私たちの発見は、SDEとUXDのパートナーシップを超えて、ソフトウェア開発におけるコラボレーションに幅広い適用性を持っています。
論文参考訳（メタデータ） (2025-01-20T21:11:06Z)
Collaborative Gym: A Framework for Enabling and Evaluating Human-Agent Collaboration [51.452664740963066]
Collaborative Gymは、エージェント、人間、タスク環境間の非同期で三分割的なインタラクションを可能にするフレームワークである。シミュレーション条件と実環境条件の両方において,Co-Gymを3つの代表的なタスクでインスタンス化する。その結果、協調作業員はタスクパフォーマンスにおいて、完全に自律的なエージェントよりも一貫して優れていたことが判明した。
論文参考訳（メタデータ） (2024-12-20T09:21:15Z)
A Survey on Complex Tasks for Goal-Directed Interactive Agents [60.53915548970061]
この調査は、目標指向の対話エージェントを評価するための、関連するタスクと環境をコンパイルする。関連リソースの最新のコンパイルは、プロジェクトのWebサイトにある。
論文参考訳（メタデータ） (2024-09-27T08:17:53Z)
SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文参考訳（メタデータ） (2024-09-11T17:37:48Z)
Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents [106.87436596397816]
大規模言語モデル(LLM)エージェントは、現実世界のソフトウェア工学(SWE)問題を解決する大きな可能性を示している。専門知識を活かしたフレームワークであるDEI(Diversity Empowered Intelligence)を提案する。実験により、DEAが指導するエージェント委員会が、最高のエージェントのパフォーマンスを大きなマージンで上回ることが可能であることが示されている。
論文参考訳（メタデータ） (2024-08-13T17:50:28Z)
Rocks Coding, Not Development--A Human-Centric, Experimental Evaluation of LLM-Supported SE Tasks [9.455579863269714]
コーディングタスクやソフトウェア開発の典型的なタスクにおいて,ChatGPTがどの程度役に立つかを検討した。単純なコーディング問題ではChatGPTはうまく機能していましたが、典型的なソフトウェア開発タスクをサポートするパフォーマンスはそれほど良くありませんでした。そこで本研究では,ChatGPTを用いたソフトウェアエンジニアリングタスクを現実の開発者に提供する。
論文参考訳（メタデータ） (2024-02-08T13:07:31Z)
Experiential Co-Learning of Software-Developing Agents [83.34027623428096]
大規模言語モデル(LLM)は、特にソフトウェア開発において、様々な領域に大きな変化をもたらした。本稿では,新しいLLM学習フレームワークであるExperiential Co-Learningを紹介する。実験では、このフレームワークにより、エージェントは、目に見えないソフトウェア開発タスクをより効果的に対処できることを示した。
論文参考訳（メタデータ） (2023-12-28T13:50:42Z)
Multi-Agent Consensus Seeking via Large Language Models [6.336670103502898]
大規模言語モデル(LLM)によって駆動されるマルチエージェントシステムは、複雑なタスクを協調的に解決する有望な能力を示している。この研究は、マルチエージェントコラボレーションにおける根本的な問題であるコンセンサス探索について考察する。
論文参考訳（メタデータ） (2023-10-31T03:37:11Z)
ProAgent: Building Proactive Cooperative Agents with Large Language Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。 ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。 ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文参考訳（メタデータ） (2023-08-22T10:36:56Z)
Learning to Solve Complex Tasks by Talking to Agents [39.08818632689814]
人間は、単純なサブタスクを解くことができるAIアシスタントのような既存のエージェントと対話することで、複雑な問題を解決することが多い。一般的なNLPベンチマークは、タスク毎に自己充足型モデルを開発することを目的としている。我々は,異なる能力を持つ4つのエージェントに対して「会話」によって解決されるように設計された3種類の複雑な推論タスクを含むCommaQAという新しいベンチマークを提案する。
論文参考訳（メタデータ） (2021-10-16T10:37:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。