論文の概要: Intuition to Evidence: Measuring AI's True Impact on Developer Productivity
- arxiv url: http://arxiv.org/abs/2509.19708v1
- Date: Wed, 24 Sep 2025 02:34:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.669833
- Title: Intuition to Evidence: Measuring AI's True Impact on Developer Productivity
- Title(参考訳): 証拠の直感: 開発者の生産性に対するAIの真の影響を測定する
- Authors: Anand Kumar, Vishal Khare, Deepak Sharma, Satyam Kumar, Vijay Saini, Anshul Yadav, Sachendra Jain, Ankit Rana, Pratham Verma, Vaibhav Meena, Avinash Edubilli,
- Abstract要約: 本稿では,企業規模でのAI支援ソフトウェア開発ツールの総合的実環境評価について述べる。
1年以上にわたり、複数のチームにわたる300人のエンジニアが、コード生成と自動レビュー機能を組み合わせた社内AIプラットフォーム(DeputyDev)を統合した。
- 参考スコア(独自算出の注目度): 30.02516976149379
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a comprehensive real-world evaluation of AI-assisted software development tools deployed at enterprise scale. Over one year, 300 engineers across multiple teams integrated an in-house AI platform (DeputyDev) that combines code generation and automated review capabilities into their daily workflows. Through rigorous cohort analysis, our study demonstrates statistically significant productivity improvements, including an overall 31.8% reduction in PR review cycle time. Developer adoption was strong, with 85% satisfaction for code review features and 93% expressing a desire to continue using the platform. Adoption patterns showed systematic scaling from 4% engagement in month 1 to 83% peak usage by month 6, stabilizing at 60% active engagement. Top adopters achieved a 61% increase in code volume pushed to production, contributing to approximately 30 to 40% of code shipped to production through this tool, accounting for an overall 28% increase in code shipment volume. Unlike controlled benchmark evaluations, our longitudinal analysis provides empirical evidence from production environments, revealing both the transformative potential and practical deployment challenges of integrating AI into enterprise software development workflows.
- Abstract(参考訳): 本稿では,企業規模でのAI支援ソフトウェア開発ツールの総合的実環境評価について述べる。
1年以上にわたって、複数のチームにわたる300人のエンジニアが、コード生成と自動レビュー機能を組み合わせた、社内AIプラットフォーム(DeputyDev)を日々のワークフローに統合した。
厳密なコホート分析により,PRレビューサイクル時間全体の31.8%削減を含む,統計的に有意な生産性向上が示された。
開発者の採用は強く、85%がコードレビュー機能に満足しており、93%がプラットフォームを継続したいと願っている。
採用パターンは1ヶ月で4%のエンゲージメントから6ヶ月で83%のピーク使用率までの体系的なスケーリングを示し、60%のアクティブエンゲージメントを安定化した。
トップアダプターは、本番環境にプッシュされたコード量が61%増加し、このツールを通じて本番環境に出荷されたコードの約30~40%を占め、全体的なコード出荷量は28%増加した。
制御されたベンチマーク評価とは異なり、私たちの縦断的な分析はプロダクション環境から経験的な証拠を提供し、AIをエンタープライズソフトウェア開発ワークフローに統合するという、変革的な可能性と実践的なデプロイメントの課題の両方を明らかにします。
関連論文リスト
- The Impact of Large Language Models (LLMs) on Code Review Process [2.8071068465772853]
本稿では,GitHubプルリクエスト(PR)に対するGPTの影響について検討する。
私たちは9,254のGitHubプロジェクトから25,473のPRのデータセットをキュレートしました。
キーワードベース検出,正規表現フィルタリング,手動検証を組み合わせた半自動手法を用いて,GPT支援PRを同定した。
論文 参考訳(メタデータ) (2025-08-14T19:39:01Z) - RocketPPA: Code-Level Power, Performance, and Area Prediction via LLM and Mixture of Experts [4.825037489691159]
本稿では,新しい超高速パワー,性能(遅延),面積(PPA)推定器であるRocketPPAについて述べる。
HDLコードを入力として使用して、コードレベルの抽象化を直接実行します。
従来の最先端手法に比べてPPA推定精度が大幅に向上した。
論文 参考訳(メタデータ) (2025-03-27T20:35:09Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - Experience with GitHub Copilot for Developer Productivity at Zoominfo [1.631115063641726]
Zoominfoでは、GitHub Copilotのデプロイメントと開発者の生産性への影響を評価しています。
提案では平均33%,コード行では20%の受け入れ率を示し,高い開発者の満足度スコアは72%であった。
我々の発見は、企業環境におけるAI支援ソフトウェア開発に関する知識の増大に寄与する。
論文 参考訳(メタデータ) (2025-01-23T00:17:48Z) - How Well Can Modern LLMs Act as Agent Cores in Radiology Environments? [54.36730060680139]
RadA-BenchPlatは、放射線学環境での大規模言語モデル(LLM)のパフォーマンスをベンチマークする評価プラットフォームである。
また、エージェント駆動型タスク解決ツールの10のカテゴリを定義し、7つの主要なLCMを評価している。
論文 参考訳(メタデータ) (2024-12-12T18:20:16Z) - Lingma SWE-GPT: An Open Development-Process-Centric Language Model for Automated Software Improvement [62.94719119451089]
Lingma SWE-GPTシリーズは、現実世界のコード提出活動から学び、シミュレーションする。
Lingma SWE-GPT 72BはGitHubの30.20%の問題を解決する。
論文 参考訳(メタデータ) (2024-11-01T14:27:16Z) - Dear Diary: A randomized controlled trial of Generative AI coding tools in the workplace [2.5280615594444567]
ジェネレーティブAIコーディングツールは比較的新しいもので、開発者への影響は従来のコーディングメトリクスを超えて拡大している。
本研究の目的は、生成型AIツールに関する既存の信念、自己認識、そしてこれらのツールの定期的な使用がこれらの信念をどう変えるかを明らかにすることである。
その結果,ジェネレーティブなAIコーディングツールの導入と持続的使用は,これらのツールが有用かつ楽しいものであるという開発者の認識を著しく高めていることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-24T00:07:27Z) - SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。
FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。