論文の概要: An Empirical Study on Failures in Automated Issue Solving
- arxiv url: http://arxiv.org/abs/2509.13941v1
- Date: Wed, 17 Sep 2025 13:07:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.847911
- Title: An Empirical Study on Failures in Automated Issue Solving
- Title(参考訳): 自動問題解決における失敗に関する実証的研究
- Authors: Simiao Liu, Fang Liu, Liehao Li, Xin Tan, Yinghao Zhu, Xiaoli Lian, Li Zhang,
- Abstract要約: 我々は,SWE-Bench-Verifiedの自動問題解決タスクにおいて,パイプラインベースとエージェントアーキテクチャの両方にまたがる3つのSOTAツールの性能と効率を分析する。
ハイレベルなパフォーマンス指標から根本原因分析に移行するために,150件の障害事例の体系的手動分析を行った。
その結果、2つのアーキテクチャパラダイムの間には明確な失敗の指紋が明らかとなり、ほとんどのエージェント的失敗は、欠陥のある推論と認知的デッドロックに起因する。
- 参考スコア(独自算出の注目度): 12.571536148821144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated issue solving seeks to autonomously identify and repair defective code snippets across an entire codebase. SWE-Bench has emerged as the most widely adopted benchmark for evaluating progress in this area. While LLM-based agentic tools show great promise, they still fail on a substantial portion of tasks. Moreover, current evaluations primarily report aggregate issue-solving rates, which obscure the underlying causes of success and failure, making it challenging to diagnose model weaknesses or guide targeted improvements. To bridge this gap, we first analyze the performance and efficiency of three SOTA tools, spanning both pipeline-based and agentic architectures, in automated issue solving tasks of SWE-Bench-Verified under varying task characteristics. Furthermore, to move from high-level performance metrics to underlying cause analysis, we conducted a systematic manual analysis of 150 failed instances. From this analysis, we developed a comprehensive taxonomy of failure modes comprising 3 primary phases, 9 main categories, and 25 fine-grained subcategories. Then we systematically analyze the distribution of the identified failure modes, the results reveal distinct failure fingerprints between the two architectural paradigms, with the majority of agentic failures stemming from flawed reasoning and cognitive deadlocks. Motivated by these insights, we propose a collaborative Expert-Executor framework. It introduces a supervisory Expert agent tasked with providing strategic oversight and course-correction for a primary Executor agent. This architecture is designed to correct flawed reasoning and break the cognitive deadlocks that frequently lead to failure. Experiments show that our framework solves 22.2% of previously intractable issues for a leading single agent. These findings pave the way for building more robust agents through diagnostic evaluation and collaborative design.
- Abstract(参考訳): 自動問題解決はコードベース全体にわたって欠陥のあるコードスニペットを自律的に識別し、修復することを目指している。
SWE-Benchはこの分野の進歩を評価するための最も広く採用されているベンチマークとして登場した。
LLMベースのエージェントツールは大きな可能性を秘めているが、それでもかなりのタスクで失敗している。
さらに、現在の評価では、主に、成功と失敗の根本原因を曖昧にし、モデルの弱点の診断や目標とする改善のガイドを困難にしている、総合的な問題解決率を報告している。
このギャップを埋めるために、我々はまず、SWE-Bench-Verifiedの自動問題解決タスクにおいて、パイプラインベースとエージェントアーキテクチャの両方にまたがる3つのSOTAツールの性能と効率を分析する。
さらに、ハイレベルなパフォーマンス指標から根本原因分析に移行するために、150の障害インスタンスを体系的に手動で分析した。
そこで本研究では,3つの一次段階,9つの主要カテゴリ,25の微粒なサブカテゴリからなる障害モードの包括的分類法を開発した。
そして, 識別された障害モードの分布を系統的に解析し, その結果から2つのアーキテクチャパラダイムの相違点が明らかとなり, エージェント的障害の大部分は, 欠点のある推論と認知的デッドロックに起因する。
これらの知見に感銘を受けて,我々は,協調的なエキスパート・エクゼクタ・フレームワークを提案する。
主要な実行エージェントに対して戦略的監視とコース補正を行うための監督専門家エージェントを導入する。
このアーキテクチャは、欠陥のある推論を修正し、しばしば失敗につながる認知的デッドロックを壊すように設計されています。
実験によると、我々のフレームワークは、先進的な単一エージェントに対して、これまで難解だった問題の22.2%を解決している。
これらの知見は、診断評価と協調設計を通じて、より堅牢なエージェントを構築するための道を開いた。
関連論文リスト
- Automatic Failure Attribution and Critical Step Prediction Method for Multi-Agent Systems Based on Causal Inference [8.823529310904162]
マルチエージェントシステム(MAS)は複雑なタスクの自動化に不可欠であるが、その実践的展開は障害帰属の課題によって妨げられている。
マルチグラニュラリティ因果推論に基づくMASのための最初の失敗帰属フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-10T15:22:00Z) - A layered architecture for log analysis in complex IT systems [0.21756081703276]
この論文では、DevOpsの障害解決をサポートする3層アーキテクチャが紹介されている。
最初のレイヤであるLog Investigationは、自律的なログラベリングと異常分類を実行する。
第2のレイヤであるAnomaly Detectionは、標準から逸脱した振る舞いを検出する。
第3のレイヤであるRoot Cause Analysisは、障害、その起源、イベントシーケンスを記述する最小限のログセットを識別する。
論文 参考訳(メタデータ) (2025-08-29T11:28:21Z) - Exploring Autonomous Agents: A Closer Look at Why They Fail When Completing Tasks [8.218266805768687]
我々は、自律エージェントを厳格に評価するために設計された34のプログラム可能なタスクのベンチマークを示す。
LLMバックボーンと組み合わせた3つの人気のあるオープンソースエージェントフレームワークを評価し,タスク完了率約50%を観察した。
我々は,障害の原因を3段階に分類し,計画上のエラー,タスク実行の問題,誤った応答生成を強調する。
論文 参考訳(メタデータ) (2025-08-18T17:55:22Z) - Why Do Multi-Agent LLM Systems Fail? [91.39266556855513]
MAST(Multi-Agent System Failure taxonomy, MAST)は,MASの故障を理解するために考案された分類法である。
我々は、200以上のタスクにまたがる7つの人気のあるMASフレームワークを分析し、6つの専門家のアノテータを含む。
14のユニークな障害モードを特定し、(i)仕様問題、(ii)エージェント間ミスアライメント、(iii)タスク検証の3つに分類した。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。