論文の概要: Early-Stage Prediction of Review Effort in AI-Generated Pull Requests
- arxiv url: http://arxiv.org/abs/2601.00753v1
- Date: Fri, 02 Jan 2026 17:18:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.61151
- Title: Early-Stage Prediction of Review Effort in AI-Generated Pull Requests
- Title(参考訳): AI生成プルリクエストにおけるレビューの早期予測
- Authors: Dao Sy Duy Minh, Huynh Trung Kiet, Tran Chi Nguyen, Nguyen Lam Phu Quy, Phu Hoa Pham, Nguyen Dinh Ha Duong, Truong Bao Tran,
- Abstract要約: 我々は,2,807リポジトリにわたるAIDevデータセットから,エージェントによるPR33,707件を分析した。
本稿では,高解像度PRを生成時に予測するサーキットブレーカートリアージモデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As autonomous AI agents transition from code completion tools to full-fledged teammates capable of opening pull requests (PRs) at scale, software maintainers face a new challenge: not just reviewing code, but managing complex interaction loops with non-human contributors. This paradigm shift raises a critical question: can we predict which agent-generated PRs will consume excessive review effort before any human interaction begins? Analyzing 33,707 agent-authored PRs from the AIDev dataset across 2,807 repositories, we uncover a striking two-regime behavioral pattern that fundamentally distinguishes autonomous agents from human developers. The first regime, representing 28.3 percent of all PRs, consists of instant merges (less than 1 minute), reflecting success on narrow automation tasks. The second regime involves iterative review cycles where agents frequently stall or abandon refinement (ghosting). We propose a Circuit Breaker triage model that predicts high-review-effort PRs (top 20 percent) at creation time using only static structural features. A LightGBM model achieves AUC 0.957 on a temporal split, while semantic text features (TF-IDF, CodeBERT) provide negligible predictive value. At a 20 percent review budget, the model intercepts 69 percent of total review effort, enabling zero-latency governance. Our findings challenge prevailing assumptions in AI-assisted code review: review burden is dictated by what agents touch, not what they say, highlighting the need for structural governance mechanisms in human-AI collaboration.
- Abstract(参考訳): 自律型AIエージェントが、コード補完ツールから、プルリクエスト(PR)を大規模に開くことのできる本格的なチームメイトへと移行するにつれ、ソフトウェアメンテナは、コードレビューだけでなく、非人間コントリビュータとの複雑なインタラクションループの管理という、新たな課題に直面している。
このパラダイムシフトは、人間との対話が始まる前に、どのエージェント生成PRが過剰なレビュー作業を消費するかを予測できる、という重要な疑問を提起する。
2,807のリポジトリにまたがるAIDevデータセットから33,707件のエージェントによるPRを分析して、人間の開発者から自律的なエージェントを根本的に区別する、2つの登録の行動パターンを明らかにした。
最初の政権は全てのPRの28.3%を占め、1分以内のインスタントマージで構成され、狭い自動化タスクの成功を反映している。
第2の体制は、エージェントがしばしばリファインメント(ゴースト)を中断または放棄する反復的なレビューサイクルを含む。
本稿では,静的な構造的特徴のみを用いて高解像度PR(上位20%)を生成時に予測するサーキットブレーカートリアージモデルを提案する。
LightGBMモデルは時間分割でAUC 0.957を達成し、セマンティックテキスト特徴(TF-IDF, CodeBERT)は無視可能な予測値を提供する。
20%のレビュー予算で、このモデルはレビュー全体の69%をインターセプトし、ゼロレイテンシガバナンスを可能にします。
レビューの負担は、人間とAIのコラボレーションにおける構造的ガバナンスメカニズムの必要性を強調するものとして、エージェントが何に触れているかではなく、何に触れているかによって決まる。
関連論文リスト
- AgentIR: Reasoning-Aware Retrieval for Deep Research Agents [76.29382561831105]
ディープリサーチエージェントは、各検索の前に明示的な自然言語推論を生成する。
Reasoning-Aware Retrievalは、クエリと一緒にエージェントの推論トレースを埋め込む。
DR-Synthは、標準的なQAデータセットからDeep Researchレトリバーのトレーニングデータを生成する。
AgentIR-4Bは、オープンウェイトエージェントであるTongyi-DeepResearchで68%の精度を達成する。
論文 参考訳(メタデータ) (2026-03-04T18:47:26Z) - How AI Coding Agents Communicate: A Study of Pull Request Description Characteristics and Human Review Responses [6.061536429904841]
AIDevデータセットを用いて、5つのAI符号化エージェントが生成したプルリクエストを実証分析する。
AIコーディングエージェントは、レビュアーのエンゲージメント、応答時間、マージ結果の違いに関連する、異なるPR記述スタイルを示す。
論文 参考訳(メタデータ) (2026-02-19T05:06:31Z) - Why Are AI Agent Involved Pull Requests (Fix-Related) Remain Unmerged? An Empirical Study [5.127121704630949]
AIDEV POPデータセットから広く使用されている5つのAIコーディングエージェントによって作成された8,106の修正関連PRを分析した。
以上の結果から,他のPRによるテストケース障害や,同じ問題に対する事前解決が,非統合の最も一般的な原因であることが示唆された。
論文 参考訳(メタデータ) (2026-01-29T22:06:58Z) - AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios [49.90735676070039]
持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。
エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。
本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
論文 参考訳(メタデータ) (2026-01-28T13:49:18Z) - Let's Make Every Pull Request Meaningful: An Empirical Analysis of Developer and Agentic Pull Requests [0.944838645453772]
AIDevデータセットから収集した40,214個のPRを大規模に分析した。
6家系にまたがる64の特徴を抽出し,人間とエージェントのPRのPRマージ結果を比較するため,統計的回帰モデルに適合する。
以上の結果から, 提案者属性が両者のマージ結果に支配的であり, レビュー関連特徴は人間とエージェントPRの対比効果を示した。
論文 参考訳(メタデータ) (2026-01-26T18:16:10Z) - On Autopilot? An Empirical Study of Human-AI Teaming and Review Practices in Open Source [11.412808537439973]
プロジェクトレベルのガイドラインとAI支援プルリクエスト(PR)との開発者のインタラクションについて検討した。
AIが共著するPRの67.5%以上が、コードオーナシップのないコントリビュータから生まれています。
非オーナーの開発者が最もフィードバックを受けられるような、人間が作ったPRとは対照的に、非オーナーのAI共著のPRは最小限のフィードバックを受け取っている。
論文 参考訳(メタデータ) (2026-01-20T09:09:53Z) - AI IDEs or Autonomous Agents? Measuring the Impact of Coding Agents on Software Development [12.50615284537175]
大規模言語モデル(LLM)ベースのコーディングエージェントは、プルリクエストの生成とマージを行う自律的なコントリビュータとして機能するようになっている。
本稿では,オープンソースリポジトリにおけるエージェント導入の経時的因果関係について検討する。
論文 参考訳(メタデータ) (2026-01-20T04:51:56Z) - Security in the Age of AI Teammates: An Empirical Study of Agentic Pull Requests on GitHub [4.409447722044799]
本研究の目的は,自律型コーディングエージェントが実際にソフトウェアセキュリティにどのように貢献するかを特徴付けることである。
AIDevデータセットを用いてエージェントによるPRの大規模解析を行う。
次に、頻度、受け入れ結果を分析し、自律エージェント、プログラミングエコシステム、コード変更のタイプをレビューします。
論文 参考訳(メタデータ) (2026-01-01T21:14:11Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Towards a Humanized Social-Media Ecosystem: AI-Augmented HCI Design Patterns for Safety, Agency & Well-Being [0.0]
ソーシャルプラットフォームは何十億もの人々を結び付けているが、そのエンゲージメント優先のアルゴリズムはユーザーに対してではなく、ユーザーに対して機能することが多い。
我々は,プラットフォームロジックとインターフェースの間に位置するユーザが所有する,説明可能な仲介者を提案する。
HL-AIは、プラットフォーム協力を必要とせず、実践的でモーメント間制御を提供する。
論文 参考訳(メタデータ) (2025-11-08T06:22:15Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub [6.7302091035327285]
大規模言語モデル(LLM)は、ソフトウェア開発プロセスに統合されつつある。
自律的なAIエージェントを使用して、コードを生成し、人間の介入を最小限に抑えたプルリクエストを提出する能力は、標準のプラクティスになる可能性がある。
エージェントコーディングツールであるClaude Codeを使って生成した567のGitHubプルリクエスト(PR)を、157のオープンソースプロジェクトで実証研究しました。
論文 参考訳(メタデータ) (2025-09-18T08:48:32Z) - SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。
我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文 参考訳(メタデータ) (2025-09-08T02:07:09Z) - Code with Me or for Me? How Increasing AI Automation Transforms Developer Workflows [60.04362496037186]
本研究は,コーディングエージェントと開発者インタラクションを制御した最初の研究である。
我々は,2つの主要な協調型およびエージェント型符号化アシスタントの評価を行った。
結果から,エージェントはコピロトを超える方法で開発者を支援することができることがわかった。
論文 参考訳(メタデータ) (2025-07-10T20:12:54Z) - Generative AI for Pull Request Descriptions: Adoption, Impact, and
Developer Interventions [11.620351603683496]
GitHubのCopilot for Pull Requests (PR)は、PRに関連するさまざまな開発者タスクを自動化することを目的とした有望なサービスである。
本研究では,生成AIによって記述の一部が作成された18,256個のPRについて検討した。
われわれは、Copilot for PRは幼少期ではあるが、採用が著しく増加していることを示唆している。
論文 参考訳(メタデータ) (2024-02-14T06:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。