論文の概要: Why Agentic-PRs Get Rejected: A Comparative Study of Coding Agents
- arxiv url: http://arxiv.org/abs/2602.04226v1
- Date: Wed, 04 Feb 2026 05:24:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.383132
- Title: Why Agentic-PRs Get Rejected: A Comparative Study of Coding Agents
- Title(参考訳): エージェントPRが拒絶される理由:コーディングエージェントの比較研究
- Authors: Sota Nakashima, Yuta Ishimoto, Masanari Kondo, Shane Mclntosh, Yasutaka Kamei,
- Abstract要約: 本稿では,コーディングエージェント(Agentic-PRs)を用いたプルリクエストが,エージェントとしてラベル付けされていないPR(Human-PRs)よりも少ない頻度で受け入れられていることを示す。
拒否されたPRの多くは明確なフィードバックを欠いているため、拒否理由を決定するのが困難である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic coding -- software development workflows in which autonomous coding agents plan, implement, and submit code changes with minimal human involvement -- is rapidly gaining traction. Prior work has shown that Pull Requests (PRs) produced using coding agents (Agentic-PRs) are accepted less often than PRs that are not labeled as agentic (Human-PRs). The rejection reasons for a single agent (Claude Code) have been explored, but a comparison of how rejection reasons differ between Agentic-PRs generated by different agents has not yet been performed. This comparison is important since different coding agents are often used for different purposes, which can lead to agent-specific failure patterns. In this paper, we inspect 654 rejected PRs from the AIDev dataset covering five coding agents, as well as a human baseline. Our results show that seven rejection modes occur only in Agentic-PRs, including distrust of AI-generated code. We also observe agent-specific patterns (e.g., automated withdrawal of inactive PRs by Devin), reflecting differences in how agents are configured and used in practice. Notably, a large proportion of rejected PRs (67.9%) lack explicit reviewer feedback, making their rejection reasons difficult to determine. To mitigate this issue, we propose a set of heuristics that reduce the proportion of such cases, offering a practical preprocessing step for future studies of PR rejection in agentic coding.
- Abstract(参考訳): エージェントコーディング -- 自律的なコーディングエージェントが人間の関与を最小限に抑えてコード変更を計画、実装、提出するソフトウェア開発ワークフロー -- が急速に勢いを増している。
これまでの研究によると、コーディングエージェント(Agentic-PRs)を使用したプルリクエスト(PRs)は、エージェントとしてラベル付けされていないPR(Human-PRs)よりも少ない頻度で受け入れられている。
単一エージェント(Claude Code)の拒絶理由が検討されているが、異なるエージェントが生成するエージェントPRの拒絶理由の違いの比較はまだ行われていない。
この比較は、異なるコーディングエージェントがしばしば異なる目的に使用されるため、エージェント固有の障害パターンにつながる可能性があるため重要である。
本稿では,AIDevデータセットから,5つの符号化エージェントと1つのベースラインを含む654個の拒絶PRを検査する。
その結果,AI生成コードの不信を含む7つの拒絶モードがエージェントPRでのみ発生することがわかった。
またエージェント固有のパターン(例えば、Devinによる非アクティブPRの自動削除)も観察し、エージェントの設定や使用方法の違いを反映している。
特に、多くの拒絶されたPR(67.9%)は、明確なレビュアーのフィードバックを欠いているため、その拒否理由を決定するのが困難である。
この問題を軽減するために,エージェント符号化におけるPR拒絶の今後の研究のために,このようなケースの比率を下げるヒューリスティックな手法を提案する。
関連論文リスト
- AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent [57.10083973844841]
AgentArkは、マルチエージェントダイナミクスを単一のモデルの重みに蒸留する新しいフレームワークである。
各種モデル,タスク,スケーリング,シナリオの3つの階層的蒸留戦略について検討する。
シミュレーションからトレーニングへ計算の負担をシフトさせることで、蒸留されたモデルは、複数のエージェントの強い推論と自己補正性能を示しながら、一つのエージェントの効率を保ちます。
論文 参考訳(メタデータ) (2026-02-03T19:18:28Z) - Beyond Bug Fixes: An Empirical Investigation of Post-Merge Code Quality Issues in Agent-Generated Pull Requests [4.744786007044749]
AIDevデータセット内のPythonリポジトリから,統合されたエージェント生成バグフィックスPR1,210を分析した。
その結果,コードチャーンによる正規化後,エージェント間の生の課題数に明らかな相違がほぼ消失していることが判明した。
すべてのエージェントにおいて、コードの臭いは特に臨界や主要な重大度において支配的であり、バグは頻度が低いが、しばしば深刻である。
論文 参考訳(メタデータ) (2026-01-27T22:55:05Z) - How AI Coding Agents Modify Code: A Large-Scale Study of GitHub Pull Requests [0.0]
24,014個の統合エージェントPR(440,295個のコミット)と5,081個のヒトPR(23,242個のコミット)を分析した。
エージェントPRはコミットカウントにおいてヒューマンPRと大きく異なる(Cliffの$= 0.5429$)。
これらの発見は、AIコーディングエージェントがオープンソース開発にどのように貢献するかを、大規模な経験的評価を提供する。
論文 参考訳(メタデータ) (2026-01-24T20:27:04Z) - Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub [5.808464460707249]
われわれはGitHub全体で5人のコーディングエージェントが作成した33kエージェントのPRを大規模に調査している。
まず,4次元のPRを定量的に特徴付ける。
マージされていないPRは、より大きなコード変更を伴い、より多くのファイルに触れる傾向があり、プロジェクトのCI/CDパイプライン検証に合格しないことが多い。
論文 参考訳(メタデータ) (2026-01-21T17:12:46Z) - Security in the Age of AI Teammates: An Empirical Study of Agentic Pull Requests on GitHub [4.409447722044799]
本研究の目的は,自律型コーディングエージェントが実際にソフトウェアセキュリティにどのように貢献するかを特徴付けることである。
AIDevデータセットを用いてエージェントによるPRの大規模解析を行う。
次に、頻度、受け入れ結果を分析し、自律エージェント、プログラミングエコシステム、コード変更のタイプをレビューします。
論文 参考訳(メタデータ) (2026-01-01T21:14:11Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - OAgents: An Empirical Study of Building Effective Agents [46.50371876218872]
キーエージェントコンポーネントにおける一般的な設計選択の影響を,公平かつ厳密な方法で検討する。
この結果に基づいて,新たな基盤エージェントフレームワークであるOAgentsをオープンソースとして開発しています。
論文 参考訳(メタデータ) (2025-06-17T17:59:02Z) - Towards Adaptive Software Agents for Debugging [0.40964539027092917]
本稿では,エージェントの数とその役割を動的に決定する適応型エージェント設計を提案する。
最初の評価では、適応設計では、生成されるエージェントの数はバグのあるコードの複雑さに依存することが示されている。
治療効果は, ワンショットプロンプトよりも平均11%改善した。
論文 参考訳(メタデータ) (2025-04-25T12:48:08Z) - When Disagreements Elicit Robustness: Investigating Self-Repair Capabilities under LLM Multi-Agent Disagreements [56.29265568399648]
我々は、不一致が早期のコンセンサスを防ぎ、探索されたソリューション空間を拡張することを主張する。
タスククリティカルなステップの相違は、ソリューションパスのトポロジによってコラボレーションを損なう可能性がある。
論文 参考訳(メタデータ) (2025-02-21T02:24:43Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。