論文の概要: Human-Agent versus Human Pull Requests: A Testing-Focused Characterization and Comparison
- arxiv url: http://arxiv.org/abs/2601.21194v1
- Date: Thu, 29 Jan 2026 02:50:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.53033
- Title: Human-Agent versus Human Pull Requests: A Testing-Focused Characterization and Comparison
- Title(参考訳): ヒューマンエージェント対人間のプルリクエスト: 評価と比較による評価
- Authors: Roberto Milanese, Francesco Salzano, Angelica Spina, Antonio Vitale, Remo Pareschi, Fausto Fasano, Mattia Fazzini,
- Abstract要約: 本稿では,AIDevデータセットから,6,582個のヒトエージェントPR(HAPR)と3,122個のヒトPR(HPR)について実証的研究を行った。
HAPRとHPRを, (i) テスト頻度と範囲, (ii) テスト関連の変化の種類, (iii) テストの臭いによって測定されたテスト品質の3つの次元で比較した。
- 参考スコア(独自算出の注目度): 0.5794954517255626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI-based coding agents are increasingly integrated into software development workflows, collaborating with developers to create pull requests (PRs). Despite their growing adoption, the role of human-agent collaboration in software testing remains poorly understood. This paper presents an empirical study of 6,582 human-agent PRs (HAPRs) and 3,122 human PRs (HPRs) from the AIDev dataset. We compare HAPRs and HPRs along three dimensions: (i) testing frequency and extent, (ii) types of testing-related changes (code-and-test co-evolution vs. test-focused), and (iii) testing quality, measured by test smells. Our findings reveal that, although the likelihood of including tests is comparable (42.9% for HAPRs vs. 40.0% for HPRs), HAPRs exhibit a larger extent of testing, nearly doubling the test-to-source line ratio found in HPRs. While test-focused task distributions are comparable, HAPRs are more likely to add new tests during co-evolution (OR=1.79), whereas HPRs prioritize modifying existing tests. Finally, although some test smell categories differ statistically, negligible effect sizes suggest no meaningful differences in quality. These insights provide the first characterization of how human-agent collaboration shapes testing practices.
- Abstract(参考訳): AIベースのコーディングエージェントはますますソフトウェア開発ワークフローに統合され、開発者と協力してプルリクエスト(PR)を作成している。
採用が増えているにもかかわらず、ソフトウェアテストにおける人間とエージェントのコラボレーションの役割は、いまだに理解されていない。
本稿では,AIDevデータセットから,6,582個のヒトエージェントPR(HAPR)と3,122個のヒトPR(HPR)について実証的研究を行った。
HAPRとHPRを3次元で比較する。
一 試験の頻度及び範囲
(二)テスト関連の変更の種類(コード・アンド・テストの共進化対テスト中心)、
三 試験の臭いによって測定された試験品質。
以上の結果から, HAPRは, HAPRが42.9%, HAPRが40.0%, HAPRが2倍, HAPRが2倍である可能性が示唆された。
テスト中心のタスク分散は同等であるが、HAPRは共進化(OR=1.79)中に新しいテストを追加する傾向があり、一方HPRは既存のテストの変更を優先する。
最後に、いくつかの試験嗅覚カテゴリーは統計的に異なるが、無視可能な効果の大きさは品質に有意な違いを示さない。
これらの洞察は、人間とエージェントのコラボレーションがテストプラクティスをどのように形作るか、最初の特徴を与えます。
関連論文リスト
- Code Change Characteristics and Description Alignment: A Comparative Study of Agentic versus Human Pull Requests [0.0]
我々は,33,596個のエージェント生成PRと6,618個の人間PRを分析し,コード変更特性とメッセージ品質を比較した。
エージェントはより強いコミットレベルメッセージを生成するが、PRレベルの要約では人間を遅延させる。
これらの結果は,エージェントのマイクロレベルの精度とマクロレベルのコミュニケーションのギャップを浮き彫りにしている。
論文 参考訳(メタデータ) (2026-01-24T23:33:07Z) - Change And Cover: Last-Mile, Pull Request-Based Regression Test Augmentation [20.31612139450269]
プルリクエスト(PR)をテストすることは、ソフトウェアの品質を維持する上で重要です。
いくつかのPR修正された路線は未試験のままであり、「ラストマイル」回帰テストのギャップを残している。
このギャップに対処する LLM ベースのテスト拡張技術である ChaCo を提案する。
論文 参考訳(メタデータ) (2026-01-16T02:08:16Z) - Do Autonomous Agents Contribute Test Code? A Study of Tests in Agentic Pull Requests [1.2043574473965317]
AIDevデータセットを用いたエージェントプルリクエストにおけるテストインクルージョンに関する実証的研究を行った。
テストを含むPRは時間とともに一般的になり、より大きくなり、完成までに時間がかかる傾向にある。
また、テストPRにおけるテスト採用とテストコードと運用コードのバランスの両方において、エージェント間のばらつきも観察します。
論文 参考訳(メタデータ) (2026-01-07T03:52:13Z) - SWE-RM: Execution-free Feedback For Software Engineering Agents [61.86380395896069]
実行ベースフィードバックは、テストタイムスケーリング(TTS)と強化学習(RL)を通じて、コーディングエージェントの開発に広く利用されている。
対照的に、報酬モデルによる実行不要なフィードバックは、単体テストケースに依存することなく、よりきめ細かい信号を提供することができる。
SWE-RMは,30Bの合計パラメータと3Bのアクティベートされた3Bの混合実験アーキテクチャを採用した,正確で堅牢な報酬モデルである。
論文 参考訳(メタデータ) (2025-12-26T08:26:18Z) - TestAgent: An Adaptive and Intelligent Expert for Human Assessment [62.060118490577366]
対話型エンゲージメントによる適応テストを強化するために,大規模言語モデル(LLM)を利用したエージェントであるTestAgentを提案する。
TestAgentは、パーソナライズされた質問の選択をサポートし、テストテイカーの応答と異常をキャプチャし、動的で対話的なインタラクションを通じて正確な結果を提供する。
論文 参考訳(メタデータ) (2025-06-03T16:07:54Z) - On the Mistaken Assumption of Interchangeable Deep Reinforcement Learning Implementations [58.60617136236957]
ディープ・強化学習(Deep Reinforcement Learning, DRL)とは、エージェントがニューラルネットワークを使って特定の環境でどのアクションをとるかを学ぶ人工知能のパラダイムである。
DRLは最近、ドライビングシミュレーター、3Dロボット制御、マルチプレイヤー・オンライン・バトル・アリーナ・ビデオゲームといった複雑な環境を解くことで注目を集めている。
現在、Deep Q-Network (DQN) や Proximal Policy Optimization (PPO) アルゴリズムのような、これらのエージェントを訓練する最先端のアルゴリズムの実装が数多く存在する。
論文 参考訳(メタデータ) (2025-03-28T16:25:06Z) - Two-Sample Testing on Ranked Preference Data and the Role of Modeling
Assumptions [57.77347280992548]
本稿では,ペアワイズ比較データとランキングデータのための2サンプル試験を設計する。
私たちのテストでは、基本的に分布に関する仮定は必要ありません。
実世界のペアワイズ比較データに2サンプルテストを適用することで、人によって提供される評価とランキングは、実際は異なる分散である、と結論付ける。
論文 参考訳(メタデータ) (2020-06-21T20:51:09Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。