論文の概要: Understanding Code Agent Behaviour: An Empirical Study of Success and Failure Trajectories
- arxiv url: http://arxiv.org/abs/2511.00197v1
- Date: Fri, 31 Oct 2025 18:58:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.666588
- Title: Understanding Code Agent Behaviour: An Empirical Study of Success and Failure Trajectories
- Title(参考訳): コードエージェントの振る舞いを理解する:成功と失敗の軌道に関する実証的研究
- Authors: Oorja Majgaonkar, Zhiwei Fei, Xiang Li, Federica Sarro, He Ye,
- Abstract要約: 本稿では,エージェントのトラジェクトリ,すなわちソフトウェア問題の解決に際し,エージェントが行うステップを捉えた実行トレースについて,実証的研究を行う。
我々は、SWE-Benchベンチマークで、最先端の3つのコードエージェント(OpenHands、SWE-agent、Prometheus)の軌跡を分析し、成功と失敗の両方について検討した。
- 参考スコア(独自算出の注目度): 10.751728274263536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing deployment of Large Language Model (LLM) agents for complex software engineering tasks has created a need to understand their problem-solving behaviours beyond simple success metrics. While these agents demonstrate impressive capabilities in automated issue resolution, their decision-making processes remain largely opaque. This paper presents an empirical study of agent trajectories, namely the execution traces capturing the steps agents take when attempting to resolve software issues. We analyse trajectories from three state-of-the-art code agents (OpenHands, SWE-agent, and Prometheus) on the SWE-Bench benchmark, examining both successful and failed attempts. Our investigation reveals several key insights into agent behaviour. First, we identify how distinct problem-solving strategies, such as defensive programming and context gathering, enable success in different scenarios. Second, we find that failed trajectories are consistently longer and exhibit higher variance than successful ones, with failure patterns differing significantly between agents. Third, our fault localisation analysis shows that while most trajectories correctly identify problematic files (72-81\% even in failures), success depends more on achieving approximate rather than exact code modifications. These and other findings unveiled by our study, provide a foundation for understanding agent behaviour through trajectory analysis, contributing to the development of more robust and interpretable autonomous software engineering systems.
- Abstract(参考訳): 複雑なソフトウェアエンジニアリングタスクのためのLarge Language Model (LLM)エージェントのデプロイが増加し、単純な成功基準を超えた問題解決行動を理解する必要性が生まれました。
これらのエージェントは自動問題解決において印象的な能力を示しているが、意思決定プロセスはほとんど不透明である。
本稿では,エージェントのトラジェクトリ,すなわちソフトウェア問題の解決に際し,エージェントが行うステップを捉えた実行トレースについて,実証的研究を行う。
我々は、SWE-Benchベンチマークで、最先端の3つのコードエージェント(OpenHands、SWE-agent、Prometheus)の軌跡を分析し、成功と失敗の両方について検討した。
調査の結果,エージェント行動に関するいくつかの重要な知見が明らかになった。
まず、防御的プログラミングやコンテキスト収集といった問題解決戦略が、異なるシナリオでどのように成功するかを特定する。
第二に、失敗した軌道は一貫して長く、成功した軌道よりも高いばらつきを示しており、エージェント間では失敗パターンが著しく異なることが判明した。
第3に,障害位置解析では,ほとんどのトラジェクトリが問題ファイル(障害であっても72~81パーセント)を正しく識別するが,成功は正確なコード修正よりも近似にかかっている。
本研究で明らかになったこれらのその他の知見は、軌跡解析によるエージェントの動作理解の基礎となり、より堅牢で解釈可能な自律型ソフトウェア工学システムの開発に寄与する。
関連論文リスト
- AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering [51.07491603393163]
tAgentは知識グラフ誘導ルーティング問題としてマルチエージェントQAを定式化するフレームワークである。
エージェントアウトプットのソフトな監督と重み付けされた集約を活用することで、エージェントは多様なエージェントの相補的な強みを捉える、原則化された協調スキームを学ぶ。
論文 参考訳(メタデータ) (2025-10-06T23:20:49Z) - An Empirical Study on Failures in Automated Issue Solving [12.571536148821144]
我々は,SWE-Bench-Verifiedの自動問題解決タスクにおいて,パイプラインベースとエージェントアーキテクチャの両方にまたがる3つのSOTAツールの性能と効率を分析する。
ハイレベルなパフォーマンス指標から根本原因分析に移行するために,150件の障害事例の体系的手動分析を行った。
その結果、2つのアーキテクチャパラダイムの間には明確な失敗の指紋が明らかとなり、ほとんどのエージェント的失敗は、欠陥のある推論と認知的デッドロックに起因する。
論文 参考訳(メタデータ) (2025-09-17T13:07:52Z) - SWE-Exp: Experience-Driven Software Issue Resolution [19.525080502900785]
SWE-Expは, 従来のエージェント軌跡から簡潔で実用的な体験を抽出する, 改良されたアプローチである。
本手法では, 修復と修復の失敗の両方を捉えた多面的経験バンクを提案する。
実験の結果、SWE-ExpはSWE-bench-Verified上で最先端の解像度(41.6% Pass@1)を達成することがわかった。
論文 参考訳(メタデータ) (2025-07-31T09:13:42Z) - Understanding Software Engineering Agents: A Study of Thought-Action-Result Trajectories [17.975121612118752]
大規模言語モデル(LLM)ベースのエージェントは、複雑なソフトウェアエンジニアリングタスクを自動化するためにますます採用されている。
本研究は,3種類のLLM系エージェントの思考-反感-反感の軌跡について,大規模な実証的研究を行った。
我々は,数量やトークン消費,反復的な行動系列,思考,行動,結果のセマンティックコヒーレンスといった重要な軌道特性を同定する。
論文 参考訳(メタデータ) (2025-06-23T16:34:52Z) - Understanding Software Engineering Agents Through the Lens of Traceability: An Empirical Study [15.97770416681533]
ソフトウェアエンジニアリングエージェント(SWEエージェント)は、ユーザの入力を解釈し、環境フィードバックに応答することで、自律的に動作する。
本稿では,SWEエージェントの動作を,実行トレースのレンズを通してシステマティックに解析する。
論文 参考訳(メタデータ) (2025-06-10T00:41:54Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - Why Do Multi-Agent LLM Systems Fail? [87.90075668488434]
MAST-Dataは7つの人気のあるMASフレームワークで収集された1600以上の注釈付きトレースの包括的なデータセットである。
我々はMAST(Multi-Agent System Failure Taxonomy)を初めて構築する。
MASTとMAST-Dataを利用して、モデル(GPT4、Claude 3、Qwen2.5、CodeLlama)とタスク(コーディング、数学、汎用エージェント)の障害パターンを分析します。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。