論文の概要: Debt Behind the AI Boom: A Large-Scale Empirical Study of AI-Generated Code in the Wild
- arxiv url: http://arxiv.org/abs/2603.28592v1
- Date: Mon, 30 Mar 2026 15:38:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.488744
- Title: Debt Behind the AI Boom: A Large-Scale Empirical Study of AI-Generated Code in the Wild
- Title(参考訳): AIブームの背後にある負債:野生のAI生成コードの大規模な実証研究
- Authors: Yue Liu, Ratnadira Widyasari, Yanjie Zhao, Ivana Clairine Irsan, David Lo,
- Abstract要約: 我々は6,275のGitHubリポジトリから304,362の認証済みAI認証コミットのデータセットを構築します。
484,606の異なる問題を特定し、コードの臭いは最も一般的な型であり、すべての問題の89.1%を占めています。
これらの結果は、AI生成コードは、実際のソフトウェアプロジェクトに長期のメンテナンスコストをもたらす可能性があることを示している。
- 参考スコア(独自算出の注目度): 13.35459155979355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI coding assistants are now widely used in software development. Software developers increasingly integrate AI-generated code into their codebases to improve productivity. Prior studies have shown that AI-generated code may contain code quality issues under controlled settings. However, we still know little about the real-world impact of AI-generated code on software quality and maintenance after it is introduced into production repositories. In other words, it remains unclear whether such issues are quickly fixed or persist and accumulate over time as technical debt. In this paper, we conduct a large-scale empirical study on the technical debt introduced by AI coding assistants in the wild. To achieve that, we built a dataset of 304,362 verified AI-authored commits from 6,275 GitHub repositories, covering five widely used AI coding assistants. For each commit, we run static analysis before and after the change to precisely attribute which code smells, bugs, and security issues the AI introduced. We then track each introduced issue from the introducing commit to the latest repository revision to study its lifecycle. Our results show that we identified 484,606 distinct issues, and that code smells are by far the most common type, accounting for 89.1% of all issues. We also find that more than 15% of commits from every AI coding assistant introduce at least one issue, although the rates vary across tools. More importantly, 24.2% of tracked AI-introduced issues still survive at the latest revision of the repository. These findings show that AI-generated code can introduce long-term maintenance costs into real software projects and highlight the need for stronger quality assurance in AI-assisted development.
- Abstract(参考訳): AIコーディングアシスタントは現在、ソフトウェア開発で広く使われている。
ソフトウェア開発者は、AI生成コードをコードベースに統合し、生産性を向上させる。
以前の研究では、AI生成コードには、制御された設定下でのコード品質の問題が含まれている可能性があることが示されている。
しかし、実運用リポジトリに導入されて以降、AI生成コードがソフトウェアの品質とメンテナンスに与える影響については、まだほとんど分かっていません。
言い換えれば、そのような問題が迅速に修正されるか、持続され、技術的負債として時間の経過とともに蓄積されるかは、まだ不明である。
本稿では,AIのコーディングアシスタントが野生で導入した技術的負債について,大規模な実証的研究を行う。
これを実現するために、6,275のGitHubリポジトリから304,362の認証済みAI認証コミットのデータセットを構築しました。
コミット毎に、変更前後で静的解析を実行して、AIが導入したコードの臭いやバグ、セキュリティ上の問題を正確に評価します。
次に、導入した各問題をコミットから最新のリポジトリのリビジョンまで追跡し、ライフサイクルを調査します。
結果、私たちは484,606の異なる問題を特定し、コードの臭いは最も一般的な型であり、すべての問題の89.1%を占めています。
また、すべてのAIコーディングアシスタントからのコミットの15%以上が、ツールによって異なるものの、少なくとも1つの問題を導入していることもわかりました。
さらに重要なのは、追跡されたAI導入問題の24.2%が、リポジトリの最新版でまだ残っていることだ。
これらの結果は、AI生成コードが実際のソフトウェアプロジェクトに長期的なメンテナンスコストを導入し、AI支援開発における品質保証の強化の必要性を強調していることを示している。
関連論文リスト
- AI builds, We Analyze: An Empirical Study of AI-Generated Build Code Quality [0.0]
ソフトウェア開発におけるAIコーディングエージェントの急速な採用は、それらが生成するコードの品質と保守性に関する重要な疑問を提起している。
このデータマイニングの課題は、実世界のGitHubリポジトリからエージェントプルリクエストをキャプチャする、最初の大規模でオープンソースのデータセットであるAIDevに焦点を当てている。
私たちは364のメンテナンス性とセキュリティ関連のビルドの臭いを、さまざまな重大度レベルにわたって特定しました。
論文 参考訳(メタデータ) (2026-01-23T15:40:28Z) - AI Code in the Wild: Measuring Security Risks and Ecosystem Shifts of AI-Generated Code in Modern Software [12.708926174194199]
野生におけるAI生成コード(AIGCode)の大規模な実証的研究について紹介する。
我々はAIGCodeと人書きコードとを区別するための高精度検出パイプラインとベンチマークを構築した。
これにより、コミット、ファイル、関数を人間/AI軸に沿ってラベル付けし、AIGCodeがプロジェクトや脆弱性ライフサイクルをどう移動するかを追跡することができます。
論文 参考訳(メタデータ) (2025-12-21T02:26:29Z) - Vibe Coding in Practice: Motivations, Challenges, and a Future Outlook -- a Grey Literature Review [2.5195922470930614]
バイブコーディング(Vibe coding)とは、AIコード生成ツールを直感や試行錯誤を通じて、基礎となるコードを必ずしも理解せずに使用するプラクティスである。
ユーザーがなぜバイブコーディングに関わったのか、何を経験しているか、品質保証(QA)にどのようにアプローチし、AI生成コードの品質を知覚するかを体系的に調査した研究はない。
私たちの分析では、スピードとアクセシビリティによってビブコーダがモチベーションを得て、迅速な即時的な成功とフローを経験する"という、スピード品質のトレードオフパラドックスを明らかにしています。
論文 参考訳(メタデータ) (2025-09-30T22:35:00Z) - Code with Me or for Me? How Increasing AI Automation Transforms Developer Workflows [60.04362496037186]
本研究は,コーディングエージェントと開発者インタラクションを制御した最初の研究である。
我々は,2つの主要な協調型およびエージェント型符号化アシスタントの評価を行った。
結果から,エージェントはコピロトを超える方法で開発者を支援することができることがわかった。
論文 参考訳(メタデータ) (2025-07-10T20:12:54Z) - Echoes of AI: Investigating the Downstream Effects of AI Assistants on Software Maintainability [5.677464428950146]
本研究では,AIアシスタントとの共同開発がソフトウェア保守性に与える影響について検討する。
フェーズ1でのAI支援開発は、その後の進化を緩やかなスピードアップに導いた。
習慣的AIユーザーの平均スピードアップは55.9%だった。
論文 参考訳(メタデータ) (2025-07-01T14:24:37Z) - On Developers' Self-Declaration of AI-Generated Code: An Analysis of Practices [2.205621813527632]
この研究は、開発者がAI生成コードの自己宣言に使用する方法を理解することを目的としている。
第1フェーズでは、GitHubからAI生成コードスニペットの613のインスタンスを収集しました。
第2フェーズでは,フォローアップ実践者の調査を行い,有効回答は111件であった。
論文 参考訳(メタデータ) (2025-04-23T07:52:39Z) - Challenges and Paths Towards AI for Software Engineering [55.95365538122656]
ソフトウェア工学におけるAIの進歩を3倍に議論する。
まず、ソフトウェア工学のためのAIにおいて、具体的なタスクを構造化した分類法を提供する。
次に、現在のアプローチを制限するいくつかの重要なボトルネックを概説する。
論文 参考訳(メタデータ) (2025-03-28T17:17:57Z) - Almost AI, Almost Human: The Challenge of Detecting AI-Polished Writing [55.2480439325792]
本研究では、AI-Polished-Text Evaluationデータセットを用いて、12の最先端AIテキスト検出器を体系的に評価する。
我々の発見によると、検出器は、最小限に洗練されたテキストをAI生成としてフラグ付けし、AIの関与度を区別し、古いモデルや小さなモデルに対するバイアスを示す。
論文 参考訳(メタデータ) (2025-02-21T18:45:37Z) - Generation Probabilities Are Not Enough: Uncertainty Highlighting in AI Code Completions [54.55334589363247]
本研究では,不確実性に関する情報を伝達することで,プログラマがより迅速かつ正確にコードを生成することができるかどうかを検討する。
トークンのハイライトは、編集される可能性が最も高いので、タスクの完了が早くなり、よりターゲットを絞った編集が可能になることがわかりました。
論文 参考訳(メタデータ) (2023-02-14T18:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。