Fugu-MT 論文翻訳(概要): Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance

論文の概要: Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance

arxiv url: http://arxiv.org/abs/2602.08915v1
Date: Mon, 09 Feb 2026 17:14:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-10 20:26:25.392732
Title: Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance
Title（参考訳）: AI符号化エージェントの比較:プルリクエストアクセプタンスのタスクトレース分析
Authors: Giovanni Pinna, Jingzhi Gong, David Williams, Federica Sarro,
Abstract要約: この記事では、AIを利用した一般的な5つのコーディングアシスタント(OpenAI Codex、GitHub Copilot、Devin、Cursor、Claude Code)を比較します。デビンは受容率において唯一一貫した正の傾向を示す(32週間で週0.77%以上)。分析の結果,PRタスクタイプが受入率に影響を及ぼす主要な要因であることが示唆された。
参考スコア（独自算出の注目度）: 4.424336158797069
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid adoption of AI-powered coding assistants is transforming software development practices, yet systematic comparisons of their effectiveness across different task types and over time remain limited. This paper presents an empirical study comparing five popular agents (OpenAI Codex, GitHub Copilot, Devin, Cursor, and Claude Code), analyzing 7,156 pull requests (PRs) from the AIDev dataset. Temporal trend analysis reveals heterogeneous evolution patterns: Devin exhibits the only consistent positive trend in acceptance rate (+0.77% per week over 32 weeks), whereas other agents remain largely stable. Our analysis suggests that the PR task type is a dominant factor influencing acceptance rates: documentation tasks achieve 82.1% acceptance compared to 66.1% for new features - a 16 percentage point gap that exceeds typical inter-agent variance for most tasks. OpenAI Codex achieves consistently high acceptance rates across all nine task categories (59.6%-88.6%), with stratified Chi-square tests confirming statistically significant advantages over other agents in several task categories. However, no single agent performs best across all task types: Claude Code leads in documentation (92.3%) and features (72.6%), while Cursor excels in fix tasks (80.4%).
Abstract（参考訳）: AIを利用したコーディングアシスタントの急速な採用は、ソフトウェア開発のプラクティスを変革させているが、その効果をさまざまなタスクタイプと時間とともに体系的に比較することは、依然として限られている。本稿では,5つの人気のあるエージェント(OpenAI Codex, GitHub Copilot, Devin, Cursor, Claude Code)を比較し,AIDevデータセットから7,156のプルリクエスト(PR)を分析した実証的研究を行った。デビンは受容率において唯一一定の正の傾向を示し(32週間で週に+0.77%)、他の薬剤はほとんど安定している。本分析は,PRタスクタイプが受入率に影響を及ぼす要因であることを示唆する。ドキュメントタスクは,新機能の66.1%に比べて82.1%の受入率を実現している。 OpenAI Codexは9つのタスクカテゴリすべて(59.6%-88.6%)で一貫して高い受け入れ率を達成する。クロードコードはドキュメント(92.3%)と機能(72.6%)をリードし、Cursorは修正タスク(80.4%)をリードする。

関連論文リスト

AgentAssay: Token-Efficient Regression Testing for Non-Deterministic AI Agent Workflows [0.0]
AgentAssayは、非決定論的AIエージェントを回帰テストするための最初のトークン効率のよいフレームワークである。厳密な統計保証を維持しながら78-100%のコスト削減を実現している。
論文参考訳（メタデータ） (2026-03-03T04:59:25Z)
Failure-Aware Enhancements for Large Language Model (LLM) Code Generation: An Empirical Study on Decision Framework [0.26508608365976566]
GitHubの25のプロジェクトに関する実証調査では、プログレッシブプロンプトが平均96.9%のタスク完了を達成した。自己批判はコードレビュー可能なロジックエラーで成功するが、外部サービス統合では完全に失敗する。 RAGは、より優れた効率で、すべての障害タイプで最高の完成を達成する。
論文参考訳（メタデータ） (2026-02-02T23:08:03Z)
AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios [49.90735676070039]
持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
論文参考訳（メタデータ） (2026-01-28T13:49:18Z)
Code Change Characteristics and Description Alignment: A Comparative Study of Agentic versus Human Pull Requests [0.0]
我々は,33,596個のエージェント生成PRと6,618個の人間PRを分析し,コード変更特性とメッセージ品質を比較した。エージェントはより強いコミットレベルメッセージを生成するが、PRレベルの要約では人間を遅延させる。これらの結果は,エージェントのマイクロレベルの精度とマクロレベルのコミュニケーションのギャップを浮き彫りにしている。
論文参考訳（メタデータ） (2026-01-24T23:33:07Z)
AI, Metacognition, and the Verification Bottleneck: A Three-Wave Longitudinal Study of Human Problem-Solving [0.0]
このパイロット研究は、AIが学術的な環境での6ヶ月にわたる問題解決にどのように影響するかを追跡した。結果は、主にアーリーアドプター、学術関連集団に一般化される。
論文参考訳（メタデータ） (2026-01-21T15:49:04Z)
Multi-Agent LLM Committees for Autonomous Software Beta Testing [0.0]
このフレームワークは、モデルの多様性、ペルソナ駆動の振る舞いの変化、視覚的ユーザインターフェイスの理解を組み合わせたものだ。視覚対応エージェントは、ナビゲーションとレポートによってユーザインターフェース要素を100%成功させることに成功した。このフレームワークは、CI/CDパイプラインにおけるLLMベースのソフトウェアテストの再現可能な研究と実践的な展開を可能にする。
論文参考訳（メタデータ） (2025-12-21T02:06:53Z)
Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文参考訳（メタデータ） (2025-12-09T06:52:21Z)
Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。モデル、足場、ベンチマークにまたがる3次元解析を行う。私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文参考訳（メタデータ） (2025-10-13T22:22:28Z)
Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。 TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。 We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文参考訳（メタデータ） (2025-10-06T05:03:57Z)
Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。 Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。 SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文参考訳（メタデータ） (2025-09-25T14:05:55Z)
On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub [6.7302091035327285]
大規模言語モデル(LLM)は、ソフトウェア開発プロセスに統合されつつある。自律的なAIエージェントを使用して、コードを生成し、人間の介入を最小限に抑えたプルリクエストを提出する能力は、標準のプラクティスになる可能性がある。エージェントコーディングツールであるClaude Codeを使って生成した567のGitHubプルリクエスト(PR)を、157のオープンソースプロジェクトで実証研究しました。
論文参考訳（メタデータ） (2025-09-18T08:48:32Z)
OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文参考訳（メタデータ） (2025-08-07T17:54:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。