論文の概要: Why Are Agentic Pull Requests Merged or Rejected? An Empirical Study
- arxiv url: http://arxiv.org/abs/2605.22534v1
- Date: Thu, 21 May 2026 14:24:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.582085
- Title: Why Are Agentic Pull Requests Merged or Rejected? An Empirical Study
- Title(参考訳): エージェントプル要求はなぜマージされるか? : 実証的研究
- Authors: Sien Reeve O. Peralta, Fumika Hoshi, Hironori Washizaki, Naoyasu Ubayashi, Inase Kondo, Yoshiki Higo, Hiroki Mukai, Norihiro Yoshida, Kazuki Kusama, Hidetake Tanaka, Youmei Fan,
- Abstract要約: AIコーディングエージェントは、プルリクエスト(Agentic-PR)をオープンソースリポジトリに送信するが、そのパフォーマンスはマージと拒否結果だけで評価されることが多い。
我々は,11,048件のクローズドエージェントプルリクエストの意思決定指向分析を行い,9,799件の人間レビューPRに精査し,手動で717件の代表事例を検査し,意思決定の合理性を回復した。
一方31.2%はワークフローの制約によって駆動され、33.1%は観測可能な決定の根拠に欠けていた。
- 参考スコア(独自算出の注目度): 1.817190500510871
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI coding agents increasingly submit pull requests (Agentic-PRs) to open-source repositories, yet their performance is commonly assessed using merge and rejection outcomes alone. We hypothesized that these outcome labels do not reliably reflect agent capability without considering review interactions. To test this, we conducted a decision-oriented analysis of 11,048 closed Agentic Pull Requests, refined to 9,799 human-reviewed PRs, and manually inspected 717 representative cases to recover decision rationale from interaction artifacts. We found that rejection outcomes substantially overstate agent error: only 35.7% of rejected PRs reflected clear agentic failures, while 31.2% were driven by workflow constraints and 33.1% lacked observable decision rationale. Among merged PRs, 15.4% required explicit reviewer involvement through feedback or direct commits, and 5.5% showed no visible interaction trace. We further observed systematic differences across agents, with Copilot and Devin more often embedded in reviewer-mediated workflows, while Codex and Cursor PRs were typically merged with minimal interaction. These results reject the assumption that PR outcomes alone capture agent performance and demonstrate the need for interaction-aware evaluation grounded in review behavior.
- Abstract(参考訳): AIコーディングエージェントは、プルリクエスト(Agentic-PR)をオープンソースリポジトリに送信する傾向にあるが、そのパフォーマンスはマージと拒否結果だけで評価されることが多い。
これらの結果ラベルは、レビューインタラクションを考慮せずに、エージェント能力を確実に反映しない、という仮説を立てた。
これをテストするために,11,048件のクローズドエージェントプルリクエストを,9,799件の人間レビューPRに精査し,手動で717件の代表事例を検査し,インタラクションアーティファクトから意思決定の合理性を復元した。
拒否されたPRの35.7%は明確なエージェントの失敗を反映しており、31.2%はワークフローの制約によって駆動され、33.1%は観測可能な決定の根拠に欠けていた。
合併されたPRのうち、15.4%はフィードバックや直接コミットを通じて明確なレビュアーの関与を必要とし、5.5%は目に見える相互作用の痕跡を示さなかった。
CodexとCursorのPRは最小限のインタラクションでマージされるのに対し、CopilotとDevinはより頻繁にレビュアーによるワークフローに埋め込まれる。
これらの結果は,PR結果だけでエージェントのパフォーマンスを捕捉し,レビュー行動に根ざしたインタラクション・アウェア・アセスメントの必要性を示すという仮定を否定するものである。
関連論文リスト
- ExComm: Exploration-Stage Communication for Error-Resilient Agentic Test-Time Scaling [57.42714978834704]
ExCommは、探索段階のエージェントテストタイムスケーリングのための通信プロトコルである。
ExCommは、強いテスト時間スケーリングベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2026-05-21T07:38:44Z) - Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - From Industry Claims to Empirical Reality: An Empirical Study of Code Review Agents in Pull Requests [0.991629944808926]
コードレビューエージェント(CRA)は、開発において日常的なゲートキーパーとなっている。
CRAは、人間の関与なしに、オープンソースリポジトリ内のPRの80%を管理することができる。
本稿では,CRA生成コメントのレビュアー構成と信号品質を実証的に分析する。
論文 参考訳(メタデータ) (2026-04-03T17:15:15Z) - Why Agentic-PRs Get Rejected: A Comparative Study of Coding Agents [0.0]
本稿では,コーディングエージェント(Agentic-PRs)を用いたプルリクエストが,エージェントとしてラベル付けされていないPR(Human-PRs)よりも少ない頻度で受け入れられていることを示す。
拒否されたPRの多くは明確なフィードバックを欠いているため、拒否理由を決定するのが困難である。
論文 参考訳(メタデータ) (2026-02-04T05:24:18Z) - Why Are AI Agent Involved Pull Requests (Fix-Related) Remain Unmerged? An Empirical Study [5.127121704630949]
AIDEV POPデータセットから広く使用されている5つのAIコーディングエージェントによって作成された8,106の修正関連PRを分析した。
以上の結果から,他のPRによるテストケース障害や,同じ問題に対する事前解決が,非統合の最も一般的な原因であることが示唆された。
論文 参考訳(メタデータ) (2026-01-29T22:06:58Z) - Analyzing Message-Code Inconsistency in AI Coding Agent-Authored Pull Requests [5.885226503818935]
AIコーディングエージェントによって生成されたプルリクエスト記述は、人間のレビュアーにコード変更を伝えるための主要なチャネルである。
PRメッセージコード不整合(PR-MCI)を用いた5エージェントにわたるエージェントPR23,247の解析を行った。
高MCIのPRは51.7%減少し、合併までに3.5倍の期間を要した。
論文 参考訳(メタデータ) (2026-01-08T12:31:02Z) - Early-Stage Prediction of Review Effort in AI-Generated Pull Requests [0.0]
我々は,2,807リポジトリにわたるAIDevデータセットから,エージェントによるPR33,707件を分析した。
本稿では,高解像度PRを生成時に予測するサーキットブレーカートリアージモデルを提案する。
論文 参考訳(メタデータ) (2026-01-02T17:18:01Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - Agentic Feedback Loop Modeling Improves Recommendation and User Simulation [55.857164472712455]
本稿では,リコメンデーションエージェントとユーザエージェントの協調を支援するために,フィードバックループプロセスを強調する新しいフレームワークを提案する。
この反復的なプロセスは、両方のエージェントがユーザの振る舞いを推測する能力を高め、より効果的なアイテムレコメンデーションとより正確なユーザーシミュレーションを可能にします。
論文 参考訳(メタデータ) (2024-10-26T00:51:39Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。