Fugu-MT 論文翻訳(概要): Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub

論文の概要: Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub

arxiv url: http://arxiv.org/abs/2601.15195v1
Date: Wed, 21 Jan 2026 17:12:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-22 21:27:50.472286
Title: Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub
Title（参考訳）: AIコーディングエージェントはどこで失敗するのか? GitHubにおけるエージェントプルリクエストの失敗に関する実証的研究
Authors: Ramtin Ehsani, Sakshi Pathak, Shriya Rawal, Abdullah Al Mujahid, Mia Mohammad Imran, Preetha Chatterjee,
Abstract要約: われわれはGitHub全体で5人のコーディングエージェントが作成した33kエージェントのPRを大規模に調査している。まず,4次元のPRを定量的に特徴付ける。マージされていないPRは、より大きなコード変更を伴い、より多くのファイルに触れる傾向があり、プロジェクトのCI/CDパイプライン検証に合格しないことが多い。
参考スコア（独自算出の注目度）: 5.808464460707249
License: http://creativecommons.org/licenses/by/4.0/
Abstract: AI coding agents are now submitting pull requests (PRs) to software projects, acting not just as assistants but as autonomous contributors. As these agentic contributions are rapidly increasing across real repositories, little is known about how they behave in practice and why many of them fail to be merged. In this paper, we conduct a large-scale study of 33k agent-authored PRs made by five coding agents across GitHub. (RQ1) We first quantitatively characterize merged and not-merged PRs along four broad dimensions: 1) merge outcomes across task types, 2) code changes, 3) CI build results, and 4) review dynamics. We observe that tasks related to documentation, CI, and build update achieve the highest merge success, whereas performance and bug-fix tasks perform the worst. Not-merged PRs tend to involve larger code changes, touch more files, and often do not pass the project's CI/CD pipeline validation. (RQ2) To further investigate why some agentic PRs are not merged, we qualitatively analyze 600 PRs to derive a hierarchical taxonomy of rejection patterns. This analysis complements the quantitative findings in RQ1 by uncovering rejection reasons not captured by quantitative metrics, including lack of meaningful reviewer engagement, duplicate PRs, unwanted feature implementations, and agent misalignment. Together, our findings highlight key socio-technical and human-AI collaboration factors that are critical to improving the success of future agentic workflows.
Abstract（参考訳）: AIコーディングエージェントは、ソフトウェアプロジェクトにプルリクエスト(PR)を送信し、アシスタントだけでなく、自律的なコントリビュータとして機能する。これらのエージェント的コントリビューションは、実際のリポジトリ全体で急速に増加しているため、実際にどのように振る舞うか、なぜ多くのエージェントがマージされないのかについては、ほとんど分かっていない。本稿では,GitHub全体で5つのコーディングエージェントが作成した33kエージェントのPRを大規模に調査する。 (RQ1) まず4つの広い次元に沿って、マージされた非マージされたPRを定量的に特徴づける。 1)タスクタイプにまたがる成果をマージする。 2)コードの変更。 3)CIビルドの結果、そして 4) ダイナミクスのレビュー。ドキュメント、CI、ビルドアップデートに関連するタスクがマージを最も成功させるのに対して、パフォーマンスとバグフィックスタスクは最悪の結果になると考えています。マージされていないPRは、より大きなコード変更を伴い、より多くのファイルに触れる傾向があり、プロジェクトのCI/CDパイプライン検証に合格しないことが多い。 (RQ2) エージェントPRがマージされない理由をさらに調査するため,600のPRを質的に解析し,リジェクションパターンの階層的分類を導出する。この分析は、有意義なレビュアーエンゲージメントの欠如、重複PR、望ましくない特徴実装、エージェントのミスアライメントなど、定量的な指標によって捉えられていない拒絶理由を明らかにすることで、RQ1における定量的な発見を補完する。そこで本研究では,今後のエージェントワークフローの成功に不可欠な,社会技術と人間-AIのコラボレーション要因について考察した。

関連論文リスト

AgentIR: Reasoning-Aware Retrieval for Deep Research Agents [76.29382561831105]
ディープリサーチエージェントは、各検索の前に明示的な自然言語推論を生成する。 Reasoning-Aware Retrievalは、クエリと一緒にエージェントの推論トレースを埋め込む。 DR-Synthは、標準的なQAデータセットからDeep Researchレトリバーのトレーニングデータを生成する。 AgentIR-4Bは、オープンウェイトエージェントであるTongyi-DeepResearchで68%の精度を達成する。
論文参考訳（メタデータ） (2026-03-04T18:47:26Z)
BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing? [61.247730037229815]
BeyondSWEは2つの軸 – 解像度スコープと知識スコープ – に沿って既存の評価を拡張する包括的なベンチマークです。外部知識の役割を解明するために,ディープ検索とコーディング能力を統合するフレームワークであるSearchSWEを開発した。この作業は、現実的で挑戦的な評価ベンチマークと、より有能なコードエージェントに向けた研究を進めるための柔軟なフレームワークの両方を提供する。
論文参考訳（メタデータ） (2026-03-03T17:52:01Z)
Why Are AI Agent Involved Pull Requests (Fix-Related) Remain Unmerged? An Empirical Study [5.127121704630949]
AIDEV POPデータセットから広く使用されている5つのAIコーディングエージェントによって作成された8,106の修正関連PRを分析した。以上の結果から,他のPRによるテストケース障害や,同じ問題に対する事前解決が,非統合の最も一般的な原因であることが示唆された。
論文参考訳（メタデータ） (2026-01-29T22:06:58Z)
Beyond Bug Fixes: An Empirical Investigation of Post-Merge Code Quality Issues in Agent-Generated Pull Requests [4.744786007044749]
AIDevデータセット内のPythonリポジトリから,統合されたエージェント生成バグフィックスPR1,210を分析した。その結果,コードチャーンによる正規化後,エージェント間の生の課題数に明らかな相違がほぼ消失していることが判明した。すべてのエージェントにおいて、コードの臭いは特に臨界や主要な重大度において支配的であり、バグは頻度が低いが、しばしば深刻である。
論文参考訳（メタデータ） (2026-01-27T22:55:05Z)
Are We All Using Agents the Same Way? An Empirical Study of Core and Peripheral Developers Use of Coding Agents [4.744786007044749]
我々は,コア開発者および周辺開発者の受け入れに先立って,エージェント生成コントリビューションの使用,レビュー,修正,検証について検討する。周辺開発者のサブセットはエージェントを頻繁に使用し、バグ修正、機能追加、ドキュメント、テストに均等にタスクを委譲する。対照的に、コア開発者はドキュメントとテストに集中しているが、エージェントPRはメイン/マスターブランチに頻繁にマージされる。
論文参考訳（メタデータ） (2026-01-27T22:50:01Z)
How AI Coding Agents Modify Code: A Large-Scale Study of GitHub Pull Requests [0.0]
24,014個の統合エージェントPR(440,295個のコミット)と5,081個のヒトPR(23,242個のコミット)を分析した。エージェントPRはコミットカウントにおいてヒューマンPRと大きく異なる(Cliffの$= 0.5429$)。これらの発見は、AIコーディングエージェントがオープンソース開発にどのように貢献するかを、大規模な経験的評価を提供する。
論文参考訳（メタデータ） (2026-01-24T20:27:04Z)
On Autopilot? An Empirical Study of Human-AI Teaming and Review Practices in Open Source [11.412808537439973]
プロジェクトレベルのガイドラインとAI支援プルリクエスト(PR)との開発者のインタラクションについて検討した。 AIが共著するPRの67.5%以上が、コードオーナシップのないコントリビュータから生まれています。非オーナーの開発者が最もフィードバックを受けられるような、人間が作ったPRとは対照的に、非オーナーのAI共著のPRは最小限のフィードバックを受け取っている。
論文参考訳（メタデータ） (2026-01-20T09:09:53Z)
Security in the Age of AI Teammates: An Empirical Study of Agentic Pull Requests on GitHub [4.409447722044799]
本研究の目的は,自律型コーディングエージェントが実際にソフトウェアセキュリティにどのように貢献するかを特徴付けることである。 AIDevデータセットを用いてエージェントによるPRの大規模解析を行う。次に、頻度、受け入れ結果を分析し、自律エージェント、プログラミングエコシステム、コード変更のタイプをレビューします。
論文参考訳（メタデータ） (2026-01-01T21:14:11Z)
TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文参考訳（メタデータ） (2025-11-07T16:08:34Z)
Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。モデル、足場、ベンチマークにまたがる3次元解析を行う。私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文参考訳（メタデータ） (2025-10-13T22:22:28Z)
Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。 Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。 SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文参考訳（メタデータ） (2025-09-25T14:05:55Z)
On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub [6.7302091035327285]
大規模言語モデル(LLM)は、ソフトウェア開発プロセスに統合されつつある。自律的なAIエージェントを使用して、コードを生成し、人間の介入を最小限に抑えたプルリクエストを提出する能力は、標準のプラクティスになる可能性がある。エージェントコーディングツールであるClaude Codeを使って生成した567のGitHubプルリクエスト(PR)を、157のオープンソースプロジェクトで実証研究しました。
論文参考訳（メタデータ） (2025-09-18T08:48:32Z)
Code with Me or for Me? How Increasing AI Automation Transforms Developer Workflows [60.04362496037186]
本研究は,コーディングエージェントと開発者インタラクションを制御した最初の研究である。我々は,2つの主要な協調型およびエージェント型符号化アシスタントの評価を行った。結果から,エージェントはコピロトを超える方法で開発者を支援することができることがわかった。
論文参考訳（メタデータ） (2025-07-10T20:12:54Z)
When Disagreements Elicit Robustness: Investigating Self-Repair Capabilities under LLM Multi-Agent Disagreements [56.29265568399648]
我々は、不一致が早期のコンセンサスを防ぎ、探索されたソリューション空間を拡張することを主張する。タスククリティカルなステップの相違は、ソリューションパスのトポロジによってコラボレーションを損なう可能性がある。
論文参考訳（メタデータ） (2025-02-21T02:24:43Z)
Evaluating Software Development Agents: Patch Patterns, Code Quality, and Issue Complexity in Real-World GitHub Scenarios [13.949319911378826]
この調査は、500の現実のGitHubイシューで上位10のエージェントから4,892のパッチを評価した。一人のエージェントが支配的であり、170の問題が未解決であり、改善の余地があった。ほとんどのエージェントはコードの信頼性とセキュリティを維持し、新しいバグや脆弱性を避けた。一部のエージェントはコードの複雑さを増し、多くの重複を減らし、コードの臭いを最小限にした。
論文参考訳（メタデータ） (2024-10-16T11:33:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。