Fugu-MT 論文翻訳(概要): How AI Coding Agents Modify Code: A Large-Scale Study of GitHub Pull Requests

論文の概要: How AI Coding Agents Modify Code: A Large-Scale Study of GitHub Pull Requests

arxiv url: http://arxiv.org/abs/2601.17581v1
Date: Sat, 24 Jan 2026 20:27:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-27 15:23:07.99947
Title: How AI Coding Agents Modify Code: A Large-Scale Study of GitHub Pull Requests
Title（参考訳）: AIコーディングエージェントによるコード修正 - GitHubプルリクエストの大規模調査
Authors: Daniel Ogenrwot, John Businge,
Abstract要約: 24,014個の統合エージェントPR(440,295個のコミット)と5,081個のヒトPR(23,242個のコミット)を分析した。エージェントPRはコミットカウントにおいてヒューマンPRと大きく異なる(Cliffの$= 0.5429$)。これらの発見は、AIコーディングエージェントがオープンソース開発にどのように貢献するかを、大規模な経験的評価を提供する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: AI coding agents are increasingly acting as autonomous contributors by generating and submitting pull requests (PRs). However, we lack empirical evidence on how these agent-generated PRs differ from human contributions, particularly in how they modify code and describe their changes. Understanding these differences is essential for assessing their reliability and impact on development workflows. Using the MSR 2026 Mining Challenge version of the AIDev dataset, we analyze 24,014 merged Agentic PRs (440,295 commits) and 5,081 merged Human PRs (23,242 commits). We examine additions, deletions, commits, and files touched, and evaluate the consistency between PR descriptions and their diffs using lexical and semantic similarity. Agentic PRs differ substantially from Human PRs in commit count (Cliff's $δ= 0.5429$) and show moderate differences in files touched and deleted lines. They also exhibit slightly higher description-to-diff similarity across all measures. These findings provide a large-scale empirical characterization of how AI coding agents contribute to open source development.
Abstract（参考訳）: AIコーディングエージェントは、プルリクエスト(PR)の生成と送信によって、自律的なコントリビュータとしての役割が増している。しかし、これらのエージェントが生成するPRが人間の貢献とどのように異なるか、特にコードの変更や変更についての実験的な証拠は欠如している。これらの違いを理解することは、彼らの信頼性と開発ワークフローへの影響を評価するのに不可欠である。 AIDevデータセットのMSR 2026マイニングチャレンジバージョンを用いて、24,014個の統合エージェントPR(440,295個のコミット)と5,081個の統合ヒューマンPR(23,242個のコミット)を分析した。追加,削除,コミット,タッチしたファイルについて検討し,語彙的および意味的類似性を用いてPR記述と差分との整合性を評価する。エージェントPRはコミットカウントにおいてヒューマンPRと大きく異なる(Cliffの$δ= 0.5429$)。また、すべての測度に対して若干高い差分類似性を示す。これらの発見は、AIコーディングエージェントがオープンソース開発にどのように貢献するかを、大規模な経験的評価を提供する。

関連論文リスト

How AI Coding Agents Communicate: A Study of Pull Request Description Characteristics and Human Review Responses [6.061536429904841]
AIDevデータセットを用いて、5つのAI符号化エージェントが生成したプルリクエストを実証分析する。 AIコーディングエージェントは、レビュアーのエンゲージメント、応答時間、マージ結果の違いに関連する、異なるPR記述スタイルを示す。
論文参考訳（メタデータ） (2026-02-19T05:06:31Z)
Why Are AI Agent Involved Pull Requests (Fix-Related) Remain Unmerged? An Empirical Study [5.127121704630949]
AIDEV POPデータセットから広く使用されている5つのAIコーディングエージェントによって作成された8,106の修正関連PRを分析した。以上の結果から,他のPRによるテストケース障害や,同じ問題に対する事前解決が,非統合の最も一般的な原因であることが示唆された。
論文参考訳（メタデータ） (2026-01-29T22:06:58Z)
Code Change Characteristics and Description Alignment: A Comparative Study of Agentic versus Human Pull Requests [0.0]
我々は,33,596個のエージェント生成PRと6,618個の人間PRを分析し,コード変更特性とメッセージ品質を比較した。エージェントはより強いコミットレベルメッセージを生成するが、PRレベルの要約では人間を遅延させる。これらの結果は,エージェントのマイクロレベルの精度とマクロレベルのコミュニケーションのギャップを浮き彫りにしている。
論文参考訳（メタデータ） (2026-01-24T23:33:07Z)
Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub [5.808464460707249]
われわれはGitHub全体で5人のコーディングエージェントが作成した33kエージェントのPRを大規模に調査している。まず,4次元のPRを定量的に特徴付ける。マージされていないPRは、より大きなコード変更を伴い、より多くのファイルに触れる傾向があり、プロジェクトのCI/CDパイプライン検証に合格しないことが多い。
論文参考訳（メタデータ） (2026-01-21T17:12:46Z)
On Autopilot? An Empirical Study of Human-AI Teaming and Review Practices in Open Source [11.412808537439973]
プロジェクトレベルのガイドラインとAI支援プルリクエスト(PR)との開発者のインタラクションについて検討した。 AIが共著するPRの67.5%以上が、コードオーナシップのないコントリビュータから生まれています。非オーナーの開発者が最もフィードバックを受けられるような、人間が作ったPRとは対照的に、非オーナーのAI共著のPRは最小限のフィードバックを受け取っている。
論文参考訳（メタデータ） (2026-01-20T09:09:53Z)
Analyzing Message-Code Inconsistency in AI Coding Agent-Authored Pull Requests [5.885226503818935]
AIコーディングエージェントによって生成されたプルリクエスト記述は、人間のレビュアーにコード変更を伝えるための主要なチャネルである。 PRメッセージコード不整合(PR-MCI)を用いた5エージェントにわたるエージェントPR23,247の解析を行った。高MCIのPRは51.7%減少し、合併までに3.5倍の期間を要した。
論文参考訳（メタデータ） (2026-01-08T12:31:02Z)
Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。モデル、足場、ベンチマークにまたがる3次元解析を行う。私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文参考訳（メタデータ） (2025-10-13T22:22:28Z)
Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。 TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。 We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文参考訳（メタデータ） (2025-10-06T05:03:57Z)
Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文参考訳（メタデータ） (2025-10-02T06:25:10Z)
DRBench: A Realistic Benchmark for Enterprise Deep Research [81.49694432639406]
DRBenchは、エンタープライズ環境で複雑でオープンなディープリサーチタスクでAIエージェントを評価するためのベンチマークである。セールス、サイバーセキュリティ、コンプライアンスなど10のドメインにわたる15のディープリサーチタスクをリリースしています。
論文参考訳（メタデータ） (2025-09-30T18:47:20Z)
AgentPack: A Dataset of Code Changes, Co-Authored by Agents and Humans [46.56091965723774]
コード編集のための微調整された大きな言語モデルは、一般的にコミットのマイニングやプルリクエストに依存しています。我々は、Claude Code、OpenAI Codex、Cursor Agentが共著した1.3Mコード編集コーパスであるAgentPackを紹介する。 AgentPackで微調整されたモデルは、以前の人間のみのコミットコーパスで訓練されたモデルより優れていることを示す。
論文参考訳（メタデータ） (2025-09-26T05:28:22Z)
On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub [6.7302091035327285]
大規模言語モデル(LLM)は、ソフトウェア開発プロセスに統合されつつある。自律的なAIエージェントを使用して、コードを生成し、人間の介入を最小限に抑えたプルリクエストを提出する能力は、標準のプラクティスになる可能性がある。エージェントコーディングツールであるClaude Codeを使って生成した567のGitHubプルリクエスト(PR)を、157のオープンソースプロジェクトで実証研究しました。
論文参考訳（メタデータ） (2025-09-18T08:48:32Z)
R&D-Agent: An LLM-Agent Framework Towards Autonomous Data Science [70.1638335489284]
高レベルの機械学習エンジニアリングタスクは、労働集約的で反復的である。機械学習プロセスを形式化する包括的で分離されたフレームワークであるR&D-Agentを紹介します。 R&D-AgentはMLEを2つのフェーズと6つのコンポーネントに定義し、MLEのエージェント設計を原則としてテスト可能なプロセスに変える。
論文参考訳（メタデータ） (2025-05-20T06:07:00Z)
When Disagreements Elicit Robustness: Investigating Self-Repair Capabilities under LLM Multi-Agent Disagreements [56.29265568399648]
我々は、不一致が早期のコンセンサスを防ぎ、探索されたソリューション空間を拡張することを主張する。タスククリティカルなステップの相違は、ソリューションパスのトポロジによってコラボレーションを損なう可能性がある。
論文参考訳（メタデータ） (2025-02-21T02:24:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。