論文の概要: Intuition to Evidence: Measuring AI's True Impact on Developer Productivity
- arxiv url: http://arxiv.org/abs/2509.19708v1
- Date: Wed, 24 Sep 2025 02:34:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.669833
- Title: Intuition to Evidence: Measuring AI's True Impact on Developer Productivity
- Title(参考訳): 証拠の直感: 開発者の生産性に対するAIの真の影響を測定する
- Authors: Anand Kumar, Vishal Khare, Deepak Sharma, Satyam Kumar, Vijay Saini, Anshul Yadav, Sachendra Jain, Ankit Rana, Pratham Verma, Vaibhav Meena, Avinash Edubilli,
- Abstract要約: 本稿では,企業規模でのAI支援ソフトウェア開発ツールの総合的実環境評価について述べる。
1年以上にわたり、複数のチームにわたる300人のエンジニアが、コード生成と自動レビュー機能を組み合わせた社内AIプラットフォーム(DeputyDev)を統合した。
- 参考スコア(独自算出の注目度): 30.02516976149379
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a comprehensive real-world evaluation of AI-assisted software development tools deployed at enterprise scale. Over one year, 300 engineers across multiple teams integrated an in-house AI platform (DeputyDev) that combines code generation and automated review capabilities into their daily workflows. Through rigorous cohort analysis, our study demonstrates statistically significant productivity improvements, including an overall 31.8% reduction in PR review cycle time. Developer adoption was strong, with 85% satisfaction for code review features and 93% expressing a desire to continue using the platform. Adoption patterns showed systematic scaling from 4% engagement in month 1 to 83% peak usage by month 6, stabilizing at 60% active engagement. Top adopters achieved a 61% increase in code volume pushed to production, contributing to approximately 30 to 40% of code shipped to production through this tool, accounting for an overall 28% increase in code shipment volume. Unlike controlled benchmark evaluations, our longitudinal analysis provides empirical evidence from production environments, revealing both the transformative potential and practical deployment challenges of integrating AI into enterprise software development workflows.
- Abstract(参考訳): 本稿では,企業規模でのAI支援ソフトウェア開発ツールの総合的実環境評価について述べる。
1年以上にわたって、複数のチームにわたる300人のエンジニアが、コード生成と自動レビュー機能を組み合わせた、社内AIプラットフォーム(DeputyDev)を日々のワークフローに統合した。
厳密なコホート分析により,PRレビューサイクル時間全体の31.8%削減を含む,統計的に有意な生産性向上が示された。
開発者の採用は強く、85%がコードレビュー機能に満足しており、93%がプラットフォームを継続したいと願っている。
採用パターンは1ヶ月で4%のエンゲージメントから6ヶ月で83%のピーク使用率までの体系的なスケーリングを示し、60%のアクティブエンゲージメントを安定化した。
トップアダプターは、本番環境にプッシュされたコード量が61%増加し、このツールを通じて本番環境に出荷されたコードの約30~40%を占め、全体的なコード出荷量は28%増加した。
制御されたベンチマーク評価とは異なり、私たちの縦断的な分析はプロダクション環境から経験的な証拠を提供し、AIをエンタープライズソフトウェア開発ワークフローに統合するという、変革的な可能性と実践的なデプロイメントの課題の両方を明らかにします。
関連論文リスト
- CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production [52.85500933801205]
CharacterFlywheelは、大規模言語モデル(LLM)を生産的なソーシャルチャットアプリケーションで改善するための反復的なプロセスである。
内部および外部のリアルタイムトラフィックからのデータを使用して、15世代にわたってモデルを洗練しました。
7日間のA/Bテストを行い、一貫したエンゲージメントの改善を示した。
論文 参考訳(メタデータ) (2026-03-02T15:27:31Z) - SWE-Universe: Scale Real-World Verifiable Environments to Millions [84.63665266236963]
SWE-Universeは、GitHubのプルリクエスト(PR)から検証可能な環境を自動的に構築するフレームワークである。
本稿では, 自動建築の課題を克服するために, 効率的なカスタムトレーニングモデルを用いた建築エージェントを提案する。
大規模エージェントによる中等教育と強化学習を通じて,環境の重要さを実証する。
論文 参考訳(メタデータ) (2026-02-02T17:20:30Z) - EmboCoach-Bench: Benchmarking AI Agents on Developing Embodied Robots [68.29056647487519]
Embodied AIは、高忠実度シミュレーションと大規模データ収集によって実現されている。
しかし、このスケーリング能力は、労働集約的な手作業の監視に依存しているため、いまだにボトルネックになっている。
実装ポリシーを自律的に構築するための LLM エージェントの能力を評価するベンチマークである textscEmboCoach-Bench を紹介する。
論文 参考訳(メタデータ) (2026-01-29T11:33:49Z) - A Pragmatic VLA Foundation Model [66.76609538850478]
我々はLingBot-VLAを開発し、9つの人気のデュアルアームロボット構成から約2万時間のリアルタイムデータを収集した。
我々のモデルは競争相手よりも明らかな優位性を実現し、その強靭な性能と広範な一般化性を示している。
ロボット学習の分野を前進させるために、コード、ベースモデル、ベンチマークデータへのオープンアクセスを提供する。
論文 参考訳(メタデータ) (2026-01-26T17:08:04Z) - Tokenomics: Quantifying Where Tokens Are Used in Agentic Software Engineering [4.812321790984494]
SDLC(Software Development Life Cycle)におけるLCM-MAシステムにおけるトークン消費パターンの分析を行う。
GPT-5推論モデルを用いて、ChatDevフレームワークによって実行される30のソフトウェア開発タスクの実行トレースを分析する。
予備的な結果は、反復コードレビューの段階が平均59.4%のトークン消費の大多数を占めていることを示している。
論文 参考訳(メタデータ) (2026-01-20T20:52:14Z) - WhatsCode: Large-Scale GenAI Deployment for Developer Efficiency at WhatsApp [0.8197659035200293]
WhatsAppをサポートするドメイン固有のAI開発システムであるWhatsCodeの産業展開に関するレポート。
WhatsCodeは、ターゲットとするプライバシ自動化から、エンドツーエンドの機能開発とDevOpsプロセスに統合された自律エージェントへと進化した。
システムは692の自動化/修正変更、711のフレームワーク採用、141のフィーチャ開発アシスト、バグトリアージの精度維持にコミットした。
論文 参考訳(メタデータ) (2025-12-04T23:25:06Z) - Developer Productivity with GenAI [17.44738403505224]
我々は415人のソフトウェア実践者がAI支援開発に伴う生産性の変化に対する認識を把握できるように調査した。
結果として、生産性の変化が制限され、生産性のパラドックスが強調され、開発者がより速くなっていくが、必ずしもより良いソフトウェアを作成したり、より満足できると感じたりはしない。
論文 参考訳(メタデータ) (2025-10-28T10:23:57Z) - SCUBA: Salesforce Computer Use Benchmark [63.66753028386581]
SCUBAは、Salesforceプラットフォーム内の顧客関係管理(CRM)上のコンピュータ利用エージェントを評価するために設計されたベンチマークである。
SCUBAには、実際のユーザインタビューから派生した300のタスクインスタンスが含まれており、3つの主要なペルソナ、プラットフォーム管理者、セールス担当者、サービスエージェントで構成されている。
ゼロショット設定とデモ拡張設定の両方で、多様なエージェントのセットをベンチマークします。
論文 参考訳(メタデータ) (2025-09-30T16:48:49Z) - The Impact of Large Language Models (LLMs) on Code Review Process [2.8071068465772853]
本稿では,GitHubプルリクエスト(PR)に対するGPTの影響について検討する。
私たちは9,254のGitHubプロジェクトから25,473のPRのデータセットをキュレートしました。
キーワードベース検出,正規表現フィルタリング,手動検証を組み合わせた半自動手法を用いて,GPT支援PRを同定した。
論文 参考訳(メタデータ) (2025-08-14T19:39:01Z) - RocketPPA: Code-Level Power, Performance, and Area Prediction via LLM and Mixture of Experts [4.825037489691159]
本稿では,新しい超高速パワー,性能(遅延),面積(PPA)推定器であるRocketPPAについて述べる。
HDLコードを入力として使用して、コードレベルの抽象化を直接実行します。
従来の最先端手法に比べてPPA推定精度が大幅に向上した。
論文 参考訳(メタデータ) (2025-03-27T20:35:09Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - Experience with GitHub Copilot for Developer Productivity at Zoominfo [1.631115063641726]
Zoominfoでは、GitHub Copilotのデプロイメントと開発者の生産性への影響を評価しています。
提案では平均33%,コード行では20%の受け入れ率を示し,高い開発者の満足度スコアは72%であった。
我々の発見は、企業環境におけるAI支援ソフトウェア開発に関する知識の増大に寄与する。
論文 参考訳(メタデータ) (2025-01-23T00:17:48Z) - How Well Can Modern LLMs Act as Agent Cores in Radiology Environments? [54.36730060680139]
RadA-BenchPlatは、放射線学環境での大規模言語モデル(LLM)のパフォーマンスをベンチマークする評価プラットフォームである。
また、エージェント駆動型タスク解決ツールの10のカテゴリを定義し、7つの主要なLCMを評価している。
論文 参考訳(メタデータ) (2024-12-12T18:20:16Z) - Lingma SWE-GPT: An Open Development-Process-Centric Language Model for Automated Software Improvement [62.94719119451089]
Lingma SWE-GPTシリーズは、現実世界のコード提出活動から学び、シミュレーションする。
Lingma SWE-GPT 72BはGitHubの30.20%の問題を解決する。
論文 参考訳(メタデータ) (2024-11-01T14:27:16Z) - Dear Diary: A randomized controlled trial of Generative AI coding tools in the workplace [2.5280615594444567]
ジェネレーティブAIコーディングツールは比較的新しいもので、開発者への影響は従来のコーディングメトリクスを超えて拡大している。
本研究の目的は、生成型AIツールに関する既存の信念、自己認識、そしてこれらのツールの定期的な使用がこれらの信念をどう変えるかを明らかにすることである。
その結果,ジェネレーティブなAIコーディングツールの導入と持続的使用は,これらのツールが有用かつ楽しいものであるという開発者の認識を著しく高めていることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-24T00:07:27Z) - SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。
FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。