論文の概要: A Task-Level Evaluation of AI Agents in Open-Source Projects
- arxiv url: http://arxiv.org/abs/2602.02345v1
- Date: Mon, 02 Feb 2026 17:05:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.315237
- Title: A Task-Level Evaluation of AI Agents in Open-Source Projects
- Title(参考訳): オープンソースプロジェクトにおけるAIエージェントのタスクレベル評価
- Authors: Shojibur Rahman, Md Fazle Rabbi, Minhaz Zibran,
- Abstract要約: AIDev-popを用いた5種類の自律型符号化エージェントの比較検討を行った。
PRライフサイクルにまたがる3つのタスク認識次元に沿ってエージェントのパフォーマンスを評価する。
本研究は,協調ソフトウェア工学への効果的な統合のためのAIエージェントの選択と改善について報告する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a comparative study of five autonomous coding agents using AIDev-pop, which is a public dataset containing thousands of AI-generated pull requests (PRs) across popular open-source repositories. We evaluate agents' performance along three task-aware dimensions spanning the PR lifecycle: (1) PR acceptance rate, (2) review discussion volume, and (3) commit message quality. Our quantitative analysis finds that Codex consistently achieves high PR acceptance rates across most task categories, while Copilot's PRs trigger the highest volume of both human and automated review discussions. In contrast, commit-level quality varies independently of acceptance outcomes. Claude and Cursor produce higher proportions of high-quality commit messages across several task types, and Codex exhibiting comparatively lower commit quality despite strong integration outcomes. Our findings inform selection and improvements of AI agents for their effective integration to collaborative software engineering.
- Abstract(参考訳): 本稿では、AIDev-popを用いた5つの自律型コーディングエージェントの比較研究を行い、AI生成プルリクエスト(PR)を数千のオープンソースリポジトリに格納した公開データセットについて述べる。
本研究では,PRライフサイクルにまたがる3つのタスク認識次元に沿ってエージェントのパフォーマンスを評価する。(1)PR受け入れ率,(2)レビューディスカッションボリューム,(3)コミットメッセージ品質。
我々の定量的分析によると、Codexは、ほとんどのタスクカテゴリで高いPR受け入れ率を達成する一方、CopilotのPRは、人間と自動化されたレビューの議論の中で、最高のボリュームをトリガーしている。
対照的に、コミットレベルの品質は受け入れ結果とは独立して変化する。
ClaudeとCursorは、いくつかのタスクタイプで高い品質のコミットメッセージを生成する。
本研究は,協調ソフトウェア工学への効果的な統合のためのAIエージェントの選択と改善について報告する。
関連論文リスト
- Why Are AI Agent Involved Pull Requests (Fix-Related) Remain Unmerged? An Empirical Study [5.127121704630949]
AIDEV POPデータセットから広く使用されている5つのAIコーディングエージェントによって作成された8,106の修正関連PRを分析した。
以上の結果から,他のPRによるテストケース障害や,同じ問題に対する事前解決が,非統合の最も一般的な原因であることが示唆された。
論文 参考訳(メタデータ) (2026-01-29T22:06:58Z) - AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios [49.90735676070039]
持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。
エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。
本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
論文 参考訳(メタデータ) (2026-01-28T13:49:18Z) - Let's Make Every Pull Request Meaningful: An Empirical Analysis of Developer and Agentic Pull Requests [0.944838645453772]
AIDevデータセットから収集した40,214個のPRを大規模に分析した。
6家系にまたがる64の特徴を抽出し,人間とエージェントのPRのPRマージ結果を比較するため,統計的回帰モデルに適合する。
以上の結果から, 提案者属性が両者のマージ結果に支配的であり, レビュー関連特徴は人間とエージェントPRの対比効果を示した。
論文 参考訳(メタデータ) (2026-01-26T18:16:10Z) - Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub [5.808464460707249]
われわれはGitHub全体で5人のコーディングエージェントが作成した33kエージェントのPRを大規模に調査している。
まず,4次元のPRを定量的に特徴付ける。
マージされていないPRは、より大きなコード変更を伴い、より多くのファイルに触れる傾向があり、プロジェクトのCI/CDパイプライン検証に合格しないことが多い。
論文 参考訳(メタデータ) (2026-01-21T17:12:46Z) - How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。
エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。
私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文 参考訳(メタデータ) (2025-10-10T19:04:28Z) - AirQA: A Comprehensive QA Dataset for AI Research with Instance-Level Evaluation [31.02336903452371]
AirQAは人工知能(AI)分野における人手による包括的な紙QAデータセットである
3つのLDMベースのエージェントにより、ExTrActorは人間の介入なしにサンプル生成および軌道収集を行うことができる。
ExTrActorは、小さなモデルのマルチターンツール使用能力を一貫して改善し、より大きなモデルに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-09-21T07:24:17Z) - Code with Me or for Me? How Increasing AI Automation Transforms Developer Workflows [60.04362496037186]
本研究は,コーディングエージェントと開発者インタラクションを制御した最初の研究である。
我々は,2つの主要な協調型およびエージェント型符号化アシスタントの評価を行った。
結果から,エージェントはコピロトを超える方法で開発者を支援することができることがわかった。
論文 参考訳(メタデータ) (2025-07-10T20:12:54Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Generative AI for Pull Request Descriptions: Adoption, Impact, and
Developer Interventions [11.620351603683496]
GitHubのCopilot for Pull Requests (PR)は、PRに関連するさまざまな開発者タスクを自動化することを目的とした有望なサービスである。
本研究では,生成AIによって記述の一部が作成された18,256個のPRについて検討した。
われわれは、Copilot for PRは幼少期ではあるが、採用が著しく増加していることを示唆している。
論文 参考訳(メタデータ) (2024-02-14T06:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。