論文の概要: Code Change Characteristics and Description Alignment: A Comparative Study of Agentic versus Human Pull Requests
- arxiv url: http://arxiv.org/abs/2601.17627v1
- Date: Sat, 24 Jan 2026 23:33:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.101689
- Title: Code Change Characteristics and Description Alignment: A Comparative Study of Agentic versus Human Pull Requests
- Title(参考訳): コード変更特性と記述アライメント:エージェントと人間のプル要求の比較検討
- Authors: Dung Pham, Taher A. Ghaleb,
- Abstract要約: 我々は,33,596個のエージェント生成PRと6,618個の人間PRを分析し,コード変更特性とメッセージ品質を比較した。
エージェントはより強いコミットレベルメッセージを生成するが、PRレベルの要約では人間を遅延させる。
これらの結果は,エージェントのマイクロレベルの精度とマクロレベルのコミュニケーションのギャップを浮き彫りにしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI coding agents can autonomously generate pull requests (PRs), yet little is known about how their contributions compare to those of humans. We analyze 33,596 agent-generated PRs (APRs) and 6,618 human PRs (HPRs) to compare code-change characteristics and message quality. We observe that APR-introduced symbols (functions and classes) are removed much sooner than those in HPRs (median time to removal 3 vs. 34 days) and are also removed more often (symbol churn 7.33% vs. 4.10%), reflecting a focus on other tasks like documentation and test updates. Agents generate stronger commit-level messages (semantic similarity 0.72 vs. 0.68) but lag humans at PR-level summarization (PR-commit similarity 0.86 vs. 0.88). Commit message length is the best predictor of description quality, indicating reliance on individual commits over full-PR reasoning. These findings highlight a gap between agents' micro-level precision and macro-level communication, suggesting opportunities to improve agent-driven development workflows.
- Abstract(参考訳): AIコーディングエージェントは、自律的にプルリクエスト(PR)を生成することができるが、その貢献が人間のものとどのように比較されているかは、ほとんど分かっていない。
我々は,33,596個のエージェント生成PR(APR)と6,618個のヒューマンPR(HPR)を分析し,コード変更特性とメッセージ品質を比較した。
私たちは、APRが導入したシンボル(関数とクラス)は、HPRのシンボルよりもずっと早く削除され(3日対34日)、ドキュメントやテストアップデートなどの他のタスクに重点を置いて、より頻繁に削除される(記号7.33%対4.10%)。
エージェントはより強いコミットレベルメッセージ(意味的類似度0.72 vs. 0.68)を生成するが、PRレベルの要約(PRコミット類似度0.86 vs. 0.88)では遅延人間を生成する。
コミットメッセージ長は記述品質の最良の予測器であり、完全なPR推論よりも個々のコミットに依存することを示す。
これらの結果から,エージェントのマイクロレベルの精度とマクロレベルのコミュニケーションのギャップが指摘され,エージェント駆動開発ワークフローを改善する機会が示唆された。
関連論文リスト
- How AI Coding Agents Modify Code: A Large-Scale Study of GitHub Pull Requests [0.0]
24,014個の統合エージェントPR(440,295個のコミット)と5,081個のヒトPR(23,242個のコミット)を分析した。
エージェントPRはコミットカウントにおいてヒューマンPRと大きく異なる(Cliffの$= 0.5429$)。
これらの発見は、AIコーディングエージェントがオープンソース開発にどのように貢献するかを、大規模な経験的評価を提供する。
論文 参考訳(メタデータ) (2026-01-24T20:27:04Z) - Analyzing Message-Code Inconsistency in AI Coding Agent-Authored Pull Requests [5.885226503818935]
AIコーディングエージェントによって生成されたプルリクエスト記述は、人間のレビュアーにコード変更を伝えるための主要なチャネルである。
PRメッセージコード不整合(PR-MCI)を用いた5エージェントにわたるエージェントPR23,247の解析を行った。
高MCIのPRは51.7%減少し、合併までに3.5倍の期間を要した。
論文 参考訳(メタデータ) (2026-01-08T12:31:02Z) - Early-Stage Prediction of Review Effort in AI-Generated Pull Requests [0.0]
我々は,2,807リポジトリにわたるAIDevデータセットから,エージェントによるPR33,707件を分析した。
本稿では,高解像度PRを生成時に予測するサーキットブレーカートリアージモデルを提案する。
論文 参考訳(メタデータ) (2026-01-02T17:18:01Z) - Security in the Age of AI Teammates: An Empirical Study of Agentic Pull Requests on GitHub [4.409447722044799]
本研究の目的は,自律型コーディングエージェントが実際にソフトウェアセキュリティにどのように貢献するかを特徴付けることである。
AIDevデータセットを用いてエージェントによるPRの大規模解析を行う。
次に、頻度、受け入れ結果を分析し、自律エージェント、プログラミングエコシステム、コード変更のタイプをレビューします。
論文 参考訳(メタデータ) (2026-01-01T21:14:11Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub [6.7302091035327285]
大規模言語モデル(LLM)は、ソフトウェア開発プロセスに統合されつつある。
自律的なAIエージェントを使用して、コードを生成し、人間の介入を最小限に抑えたプルリクエストを提出する能力は、標準のプラクティスになる可能性がある。
エージェントコーディングツールであるClaude Codeを使って生成した567のGitHubプルリクエスト(PR)を、157のオープンソースプロジェクトで実証研究しました。
論文 参考訳(メタデータ) (2025-09-18T08:48:32Z) - Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。
APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。
鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文 参考訳(メタデータ) (2025-04-21T22:29:02Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs [61.07130026622437]
大規模言語モデル(LLM)は、まだ自然言語推論タスクに苦戦している。
心の社会に動機づけられて、我々はReConcileを提案する。
LLMエージェント間のラウンドテーブル会議として設計されたマルチモデルマルチエージェントフレームワーク。
論文 参考訳(メタデータ) (2023-09-22T17:12:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。