論文の概要: Early-Stage Prediction of Review Effort in AI-Generated Pull Requests
- arxiv url: http://arxiv.org/abs/2601.00753v1
- Date: Fri, 02 Jan 2026 17:18:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.61151
- Title: Early-Stage Prediction of Review Effort in AI-Generated Pull Requests
- Title(参考訳): AI生成プルリクエストにおけるレビューの早期予測
- Authors: Dao Sy Duy Minh, Huynh Trung Kiet, Tran Chi Nguyen, Nguyen Lam Phu Quy, Phu Hoa Pham, Nguyen Dinh Ha Duong, Truong Bao Tran,
- Abstract要約: 我々は,2,807リポジトリにわたるAIDevデータセットから,エージェントによるPR33,707件を分析した。
本稿では,高解像度PRを生成時に予測するサーキットブレーカートリアージモデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As autonomous AI agents transition from code completion tools to full-fledged teammates capable of opening pull requests (PRs) at scale, software maintainers face a new challenge: not just reviewing code, but managing complex interaction loops with non-human contributors. This paradigm shift raises a critical question: can we predict which agent-generated PRs will consume excessive review effort before any human interaction begins? Analyzing 33,707 agent-authored PRs from the AIDev dataset across 2,807 repositories, we uncover a striking two-regime behavioral pattern that fundamentally distinguishes autonomous agents from human developers. The first regime, representing 28.3 percent of all PRs, consists of instant merges (less than 1 minute), reflecting success on narrow automation tasks. The second regime involves iterative review cycles where agents frequently stall or abandon refinement (ghosting). We propose a Circuit Breaker triage model that predicts high-review-effort PRs (top 20 percent) at creation time using only static structural features. A LightGBM model achieves AUC 0.957 on a temporal split, while semantic text features (TF-IDF, CodeBERT) provide negligible predictive value. At a 20 percent review budget, the model intercepts 69 percent of total review effort, enabling zero-latency governance. Our findings challenge prevailing assumptions in AI-assisted code review: review burden is dictated by what agents touch, not what they say, highlighting the need for structural governance mechanisms in human-AI collaboration.
- Abstract(参考訳): 自律型AIエージェントが、コード補完ツールから、プルリクエスト(PR)を大規模に開くことのできる本格的なチームメイトへと移行するにつれ、ソフトウェアメンテナは、コードレビューだけでなく、非人間コントリビュータとの複雑なインタラクションループの管理という、新たな課題に直面している。
このパラダイムシフトは、人間との対話が始まる前に、どのエージェント生成PRが過剰なレビュー作業を消費するかを予測できる、という重要な疑問を提起する。
2,807のリポジトリにまたがるAIDevデータセットから33,707件のエージェントによるPRを分析して、人間の開発者から自律的なエージェントを根本的に区別する、2つの登録の行動パターンを明らかにした。
最初の政権は全てのPRの28.3%を占め、1分以内のインスタントマージで構成され、狭い自動化タスクの成功を反映している。
第2の体制は、エージェントがしばしばリファインメント(ゴースト)を中断または放棄する反復的なレビューサイクルを含む。
本稿では,静的な構造的特徴のみを用いて高解像度PR(上位20%)を生成時に予測するサーキットブレーカートリアージモデルを提案する。
LightGBMモデルは時間分割でAUC 0.957を達成し、セマンティックテキスト特徴(TF-IDF, CodeBERT)は無視可能な予測値を提供する。
20%のレビュー予算で、このモデルはレビュー全体の69%をインターセプトし、ゼロレイテンシガバナンスを可能にします。
レビューの負担は、人間とAIのコラボレーションにおける構造的ガバナンスメカニズムの必要性を強調するものとして、エージェントが何に触れているかではなく、何に触れているかによって決まる。
関連論文リスト
- Security in the Age of AI Teammates: An Empirical Study of Agentic Pull Requests on GitHub [4.409447722044799]
本研究の目的は,自律型コーディングエージェントが実際にソフトウェアセキュリティにどのように貢献するかを特徴付けることである。
AIDevデータセットを用いてエージェントによるPRの大規模解析を行う。
次に、頻度、受け入れ結果を分析し、自律エージェント、プログラミングエコシステム、コード変更のタイプをレビューします。
論文 参考訳(メタデータ) (2026-01-01T21:14:11Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Towards a Humanized Social-Media Ecosystem: AI-Augmented HCI Design Patterns for Safety, Agency & Well-Being [0.0]
ソーシャルプラットフォームは何十億もの人々を結び付けているが、そのエンゲージメント優先のアルゴリズムはユーザーに対してではなく、ユーザーに対して機能することが多い。
我々は,プラットフォームロジックとインターフェースの間に位置するユーザが所有する,説明可能な仲介者を提案する。
HL-AIは、プラットフォーム協力を必要とせず、実践的でモーメント間制御を提供する。
論文 参考訳(メタデータ) (2025-11-08T06:22:15Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub [6.7302091035327285]
大規模言語モデル(LLM)は、ソフトウェア開発プロセスに統合されつつある。
自律的なAIエージェントを使用して、コードを生成し、人間の介入を最小限に抑えたプルリクエストを提出する能力は、標準のプラクティスになる可能性がある。
エージェントコーディングツールであるClaude Codeを使って生成した567のGitHubプルリクエスト(PR)を、157のオープンソースプロジェクトで実証研究しました。
論文 参考訳(メタデータ) (2025-09-18T08:48:32Z) - SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。
我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文 参考訳(メタデータ) (2025-09-08T02:07:09Z) - Code with Me or for Me? How Increasing AI Automation Transforms Developer Workflows [60.04362496037186]
本研究は,コーディングエージェントと開発者インタラクションを制御した最初の研究である。
我々は,2つの主要な協調型およびエージェント型符号化アシスタントの評価を行った。
結果から,エージェントはコピロトを超える方法で開発者を支援することができることがわかった。
論文 参考訳(メタデータ) (2025-07-10T20:12:54Z) - Generative AI for Pull Request Descriptions: Adoption, Impact, and
Developer Interventions [11.620351603683496]
GitHubのCopilot for Pull Requests (PR)は、PRに関連するさまざまな開発者タスクを自動化することを目的とした有望なサービスである。
本研究では,生成AIによって記述の一部が作成された18,256個のPRについて検討した。
われわれは、Copilot for PRは幼少期ではあるが、採用が著しく増加していることを示唆している。
論文 参考訳(メタデータ) (2024-02-14T06:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。