論文の概要: From Industry Claims to Empirical Reality: An Empirical Study of Code Review Agents in Pull Requests
- arxiv url: http://arxiv.org/abs/2604.03196v1
- Date: Fri, 03 Apr 2026 17:15:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.548632
- Title: From Industry Claims to Empirical Reality: An Empirical Study of Code Review Agents in Pull Requests
- Title(参考訳): 産業の主張から実証的現実へ:プルリクエストにおけるコードレビューエージェントの実証的研究
- Authors: Kowshik Chowdhury, Dipayan Banik, K M Ferdous, Shazibul Islam Shamim,
- Abstract要約: コードレビューエージェント(CRA)は、開発において日常的なゲートキーパーとなっている。
CRAは、人間の関与なしに、オープンソースリポジトリ内のPRの80%を管理することができる。
本稿では,CRA生成コメントのレビュアー構成と信号品質を実証的に分析する。
- 参考スコア(独自算出の注目度): 0.991629944808926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous coding agents are generating code at an unprecedented scale, with OpenAI Codex alone creating over 400,000 pull requests (PRs) in two months. As agentic PR volumes increase, code review agents (CRAs) have become routine gatekeepers in development workflows. Industry reports claim that CRAs can manage 80% of PRs in open source repositories without human involvement. As a result, understanding the effectiveness of CRA reviews is crucial for maintaining developmental workflows and preventing wasted effort on abandoned pull requests. However, empirical evidence on how CRA feedback quality affects PR outcomes remains limited. The goal of this paper is to help researchers and practitioners understand when and how CRAs influence PR merge success by empirically analyzing reviewer composition and the signal quality of CRA-generated comments. From AIDev's 19,450 PRs, we analyze 3,109 unique PRs in the commented review state, comparing human-only versus CRA-only reviews. We examine 98 closed CRA-only PRs to assess whether low signal-to-noise ratios contribute to abandonment. CRA-only PRs achieve a 45.20% merge rate, 23.17 percentage points lower than human-only PRs (68.37%), with significantly higher abandonment. Our signal-to-noise analysis reveals that 60.2% of closed CRA-only PRs fall into the 0-30% signal range, and 12 of 13 CRAs exhibit average signal ratios below 60%, indicating substantial noise in automated review feedback. These findings suggest that CRAs without human oversight often generate low-signal feedback associated with higher abandonment. For practitioners, our results indicate that CRAs should augment rather than replace human reviewers and that human involvement remains critical for effective and actionable code review.
- Abstract(参考訳): 自動コーディングエージェントは前例のない規模でコードを生成しており、OpenAI Codexだけで2ヶ月で40万以上のプルリクエスト(PR)を生成する。
エージェントPRボリュームが増加するにつれて、コードレビューエージェント(CRA)は開発ワークフローにおける日常的なゲートキーパーになっている。
業界報告では、CRAは人間の関与なしにオープンソースリポジトリ内のPRの80%を管理できると主張している。
結果として、CRAレビューの有効性を理解することは、開発ワークフローの維持と、放棄されたプルリクエストに対する無駄な労力の防止に不可欠である。
しかし、CRAのフィードバック品質がPR結果に与える影響に関する実証的な証拠は限られている。
本研究の目的は,CRAがレビュアー構成やCRA生成コメントの信号品質を実証的に分析することで,CRAがPRマージの成功にいつ,どのように影響するかを研究者や実践者が理解できるようにすることである。
AIDevの19450のPRから、コメントされたレビューステートで3,109のユニークなPRを分析し、人間のみのレビューとCRAのみのレビューを比較した。
98個のCRAのみのPRを用いて,低信号対雑音比が放棄に寄与するかどうかを検証した。
CRAのみのPRは45.20%のマージ率で、人間のみのPR(68.37%)よりも23.17ポイント低い。
信号対雑音分析の結果,閉鎖型CRAのみのPRの60.2%が0-30%の信号範囲に落ち込み,13のCRAのうち12が60%未満の信号比を示し,自動レビューフィードバックのかなりのノイズを示した。
これらの結果から,CRAは高次放棄に伴う低信号フィードバックを生じることが示唆された。
実践者にとって、CRAは人間のレビュアーを置き換えるよりも強化すべきであり、人間の関与は効果的なコードレビューには不可欠である。
関連論文リスト
- APR: Penalizing Structural Redundancy in Large Reasoning Models via Anchor-based Process Rewards [61.52322047892064]
テスト時間スケーリング(TTS)は、Large Reasoning Models(LRM)の機能を大幅に強化した。
我々は, LRM が推論過程において最終回答を得た後も, 再検討なしに反復的自己検証を頻繁に行うことを観察した。
本稿では,Anchor-based Process Reward (APR)を提案する。
論文 参考訳(メタデータ) (2026-01-31T14:53:20Z) - Why Are AI Agent Involved Pull Requests (Fix-Related) Remain Unmerged? An Empirical Study [5.127121704630949]
AIDEV POPデータセットから広く使用されている5つのAIコーディングエージェントによって作成された8,106の修正関連PRを分析した。
以上の結果から,他のPRによるテストケース障害や,同じ問題に対する事前解決が,非統合の最も一般的な原因であることが示唆された。
論文 参考訳(メタデータ) (2026-01-29T22:06:58Z) - Let's Make Every Pull Request Meaningful: An Empirical Analysis of Developer and Agentic Pull Requests [0.944838645453772]
AIDevデータセットから収集した40,214個のPRを大規模に分析した。
6家系にまたがる64の特徴を抽出し,人間とエージェントのPRのPRマージ結果を比較するため,統計的回帰モデルに適合する。
以上の結果から, 提案者属性が両者のマージ結果に支配的であり, レビュー関連特徴は人間とエージェントPRの対比効果を示した。
論文 参考訳(メタデータ) (2026-01-26T18:16:10Z) - Preventing the Collapse of Peer Review Requires Verification-First AI [49.995126139461085]
我々は、真理結合、すなわち、過度に科学的真理をトラックする場所のスコアの厳密さを提案する。
プロキシ・ソブリン評価に向けた相転移を駆動する2つの力の形式化を行う。
論文 参考訳(メタデータ) (2026-01-23T17:17:32Z) - On Autopilot? An Empirical Study of Human-AI Teaming and Review Practices in Open Source [11.412808537439973]
プロジェクトレベルのガイドラインとAI支援プルリクエスト(PR)との開発者のインタラクションについて検討した。
AIが共著するPRの67.5%以上が、コードオーナシップのないコントリビュータから生まれています。
非オーナーの開発者が最もフィードバックを受けられるような、人間が作ったPRとは対照的に、非オーナーのAI共著のPRは最小限のフィードバックを受け取っている。
論文 参考訳(メタデータ) (2026-01-20T09:09:53Z) - Analyzing Message-Code Inconsistency in AI Coding Agent-Authored Pull Requests [5.885226503818935]
AIコーディングエージェントによって生成されたプルリクエスト記述は、人間のレビュアーにコード変更を伝えるための主要なチャネルである。
PRメッセージコード不整合(PR-MCI)を用いた5エージェントにわたるエージェントPR23,247の解析を行った。
高MCIのPRは51.7%減少し、合併までに3.5倍の期間を要した。
論文 参考訳(メタデータ) (2026-01-08T12:31:02Z) - Early-Stage Prediction of Review Effort in AI-Generated Pull Requests [0.0]
我々は,2,807リポジトリにわたるAIDevデータセットから,エージェントによるPR33,707件を分析した。
本稿では,高解像度PRを生成時に予測するサーキットブレーカートリアージモデルを提案する。
論文 参考訳(メタデータ) (2026-01-02T17:18:01Z) - Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People [81.63702981397408]
限られたリソースを前提として、言語モデル(LM)に基づいたエージェントは、どの程度合理的に行動するのか?
エージェント情報探索をベンチマークし,強化する手法を開発し,人間の行動から洞察を抽出する。
Spotterエージェントでは、LMのみのベースラインよりも14.7%の精度で精度を向上し、Captainエージェントでは、期待情報ゲイン(EIG)を0.227ビット(達成可能なノイズ天井の94.2%)まで引き上げる。
論文 参考訳(メタデータ) (2025-10-23T17:57:28Z) - Position: The Hidden Costs and Measurement Gaps of Reinforcement Learning with Verifiable Rewards [110.47944672736723]
我々は、RLVR税、評価落とし穴、データ汚染という3つの力によって利回りが過大評価されることが多いと論じている。
本稿では, 精度, グラウンド, キャリブレーションを両立させる税意識訓練・評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-09-26T05:06:25Z) - Spatio-Temporal Graph Representation Learning for Fraudster Group
Detection [50.779498955162644]
企業は、偽レビューを書くために詐欺師グループを雇い、競合相手をデモしたり、自分のビジネスを宣伝したりすることができる。
そのようなグループを検出するには、詐欺師グループの静的ネットワークを表現するのが一般的なモデルである。
両レビュアーの表現学習におけるHIN-RNNの有効性を第一に活用することを提案する。
論文 参考訳(メタデータ) (2022-01-07T08:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。