論文の概要: Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance
- arxiv url: http://arxiv.org/abs/2602.08915v1
- Date: Mon, 09 Feb 2026 17:14:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.392732
- Title: Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance
- Title(参考訳): AI符号化エージェントの比較:プルリクエストアクセプタンスのタスクトレース分析
- Authors: Giovanni Pinna, Jingzhi Gong, David Williams, Federica Sarro,
- Abstract要約: この記事では、AIを利用した一般的な5つのコーディングアシスタント(OpenAI Codex、GitHub Copilot、Devin、Cursor、Claude Code)を比較します。
デビンは受容率において唯一一貫した正の傾向を示す(32週間で週0.77%以上)。
分析の結果,PRタスクタイプが受入率に影響を及ぼす主要な要因であることが示唆された。
- 参考スコア(独自算出の注目度): 4.424336158797069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid adoption of AI-powered coding assistants is transforming software development practices, yet systematic comparisons of their effectiveness across different task types and over time remain limited. This paper presents an empirical study comparing five popular agents (OpenAI Codex, GitHub Copilot, Devin, Cursor, and Claude Code), analyzing 7,156 pull requests (PRs) from the AIDev dataset. Temporal trend analysis reveals heterogeneous evolution patterns: Devin exhibits the only consistent positive trend in acceptance rate (+0.77% per week over 32 weeks), whereas other agents remain largely stable. Our analysis suggests that the PR task type is a dominant factor influencing acceptance rates: documentation tasks achieve 82.1% acceptance compared to 66.1% for new features - a 16 percentage point gap that exceeds typical inter-agent variance for most tasks. OpenAI Codex achieves consistently high acceptance rates across all nine task categories (59.6%-88.6%), with stratified Chi-square tests confirming statistically significant advantages over other agents in several task categories. However, no single agent performs best across all task types: Claude Code leads in documentation (92.3%) and features (72.6%), while Cursor excels in fix tasks (80.4%).
- Abstract(参考訳): AIを利用したコーディングアシスタントの急速な採用は、ソフトウェア開発のプラクティスを変革させているが、その効果をさまざまなタスクタイプと時間とともに体系的に比較することは、依然として限られている。
本稿では,5つの人気のあるエージェント(OpenAI Codex, GitHub Copilot, Devin, Cursor, Claude Code)を比較し,AIDevデータセットから7,156のプルリクエスト(PR)を分析した実証的研究を行った。
デビンは受容率において唯一一定の正の傾向を示し(32週間で週に+0.77%)、他の薬剤はほとんど安定している。
本分析は,PRタスクタイプが受入率に影響を及ぼす要因であることを示唆する。ドキュメントタスクは,新機能の66.1%に比べて82.1%の受入率を実現している。
OpenAI Codexは9つのタスクカテゴリすべて(59.6%-88.6%)で一貫して高い受け入れ率を達成する。
クロードコードはドキュメント(92.3%)と機能(72.6%)をリードし、Cursorは修正タスク(80.4%)をリードする。
関連論文リスト
- Failure-Aware Enhancements for Large Language Model (LLM) Code Generation: An Empirical Study on Decision Framework [0.26508608365976566]
GitHubの25のプロジェクトに関する実証調査では、プログレッシブプロンプトが平均96.9%のタスク完了を達成した。
自己批判はコードレビュー可能なロジックエラーで成功するが、外部サービス統合では完全に失敗する。
RAGは、より優れた効率で、すべての障害タイプで最高の完成を達成する。
論文 参考訳(メタデータ) (2026-02-02T23:08:03Z) - AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios [49.90735676070039]
持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。
エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。
本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
論文 参考訳(メタデータ) (2026-01-28T13:49:18Z) - Code Change Characteristics and Description Alignment: A Comparative Study of Agentic versus Human Pull Requests [0.0]
我々は,33,596個のエージェント生成PRと6,618個の人間PRを分析し,コード変更特性とメッセージ品質を比較した。
エージェントはより強いコミットレベルメッセージを生成するが、PRレベルの要約では人間を遅延させる。
これらの結果は,エージェントのマイクロレベルの精度とマクロレベルのコミュニケーションのギャップを浮き彫りにしている。
論文 参考訳(メタデータ) (2026-01-24T23:33:07Z) - AI, Metacognition, and the Verification Bottleneck: A Three-Wave Longitudinal Study of Human Problem-Solving [0.0]
このパイロット研究は、AIが学術的な環境での6ヶ月にわたる問題解決にどのように影響するかを追跡した。
結果は、主にアーリーアドプター、学術関連集団に一般化される。
論文 参考訳(メタデータ) (2026-01-21T15:49:04Z) - Multi-Agent LLM Committees for Autonomous Software Beta Testing [0.0]
このフレームワークは、モデルの多様性、ペルソナ駆動の振る舞いの変化、視覚的ユーザインターフェイスの理解を組み合わせたものだ。
視覚対応エージェントは、ナビゲーションとレポートによってユーザインターフェース要素を100%成功させることに成功した。
このフレームワークは、CI/CDパイプラインにおけるLLMベースのソフトウェアテストの再現可能な研究と実践的な展開を可能にする。
論文 参考訳(メタデータ) (2025-12-21T02:06:53Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub [6.7302091035327285]
大規模言語モデル(LLM)は、ソフトウェア開発プロセスに統合されつつある。
自律的なAIエージェントを使用して、コードを生成し、人間の介入を最小限に抑えたプルリクエストを提出する能力は、標準のプラクティスになる可能性がある。
エージェントコーディングツールであるClaude Codeを使って生成した567のGitHubプルリクエスト(PR)を、157のオープンソースプロジェクトで実証研究しました。
論文 参考訳(メタデータ) (2025-09-18T08:48:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。