Fugu-MT 論文翻訳(概要): AI builds, We Analyze: An Empirical Study of AI-Generated Build Code Quality

論文の概要: AI builds, We Analyze: An Empirical Study of AI-Generated Build Code Quality

arxiv url: http://arxiv.org/abs/2601.16839v1
Date: Fri, 23 Jan 2026 15:40:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-26 14:27:27.748911
Title: AI builds, We Analyze: An Empirical Study of AI-Generated Build Code Quality
Title（参考訳）: AI構築、We Analyze:AI生成したビルドコード品質に関する実証的研究
Authors: Anwar Ghammam, Mohamed Almukhtar,
Abstract要約: ソフトウェア開発におけるAIコーディングエージェントの急速な採用は、それらが生成するコードの品質と保守性に関する重要な疑問を提起している。このデータマイニングの課題は、実世界のGitHubリポジトリからエージェントプルリクエストをキャプチャする、最初の大規模でオープンソースのデータセットであるAIDevに焦点を当てている。私たちは364のメンテナンス性とセキュリティ関連のビルドの臭いを、さまざまな重大度レベルにわたって特定しました。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid adoption of AI coding agents for software development has raised important questions about the quality and maintainability of the code they produce. While prior studies have examined AI-generated source code, the impact of AI coding agents on build systems-a critical yet understudied component of the software lifecycle-remains largely unexplored. This data mining challenge focuses on AIDev, the first large-scale, openly available dataset capturing agent-authored pull requests (Agentic-PRs) from real-world GitHub repositories. Our paper leverages this dataset to investigate (RQ1) whether AI coding agents generate build code with quality issues (e.g., code smells), (RQ2) to what extent AI agents can eliminate code smells from build code, and (RQ3) to what extent Agentic-PRs are accepted by developers. We identified 364 maintainability and security-related build smells across varying severity levels, indicating that AI-generated build code can introduce quality issues-such as lack of error handling, and hardcoded paths or URLs-while also, in some cases, removing existing smells through refactorings (e.g., Pull Up Module and Externalize Properties). Notably, more than 61\% of Agentic-PRs are approved and merged with minimal human intervention. This dual impact underscores the need for future research on AI-aware build code quality assessment to systematically evaluate, guide, and govern AI-generated build systems code.
Abstract（参考訳）: ソフトウェア開発におけるAIコーディングエージェントの急速な採用は、それらが生成するコードの品質と保守性に関する重要な疑問を提起している。以前の研究では、AI生成ソースコードを調べたが、AIコーディングエージェントがビルドシステムに与える影響は、ソフトウェアライフサイクルの重要かつ未検討のコンポーネントである。このデータマイニングの課題は、実世界のGitHubリポジトリからエージェント権限のプルリクエスト(Agentic-PR)をキャプチャする、最初の大規模で公開可能なデータセットであるAIDevに焦点を当てている。本稿では、AIコーディングエージェントが品質問題(例えば、コードの臭い)でビルドコードを生成するかどうか(RQ2)、AIエージェントがビルドコードからコードの臭いを除去できる範囲、そして(RQ3)Agentic-PRが開発者に受け入れられている範囲について調査する。私たちは364の保守性とセキュリティ関連のビルドの臭いを、さまざまな重度レベルにわたって識別し、AI生成のビルドコードが、エラーハンドリングの欠如や、ハードコードされたパスやURLといった品質上の問題を引き起こす可能性があることを示しました。特に、Agenic-PRの61%以上が承認され、人間の介入を最小限に抑えられている。この2つの影響は、AIが生成したビルドシステムのコードを体系的に評価し、ガイドし、管理するために、AI対応のビルド品質評価に関する将来の研究の必要性を浮き彫りにする。

関連論文リスト

AI IDEs or Autonomous Agents? Measuring the Impact of Coding Agents on Software Development [12.50615284537175]
大規模言語モデル(LLM)ベースのコーディングエージェントは、プルリクエストの生成とマージを行う自律的なコントリビュータとして機能するようになっている。本稿では,オープンソースリポジトリにおけるエージェント導入の経時的因果関係について検討する。
論文参考訳（メタデータ） (2026-01-20T04:51:56Z)
AI Code in the Wild: Measuring Security Risks and Ecosystem Shifts of AI-Generated Code in Modern Software [12.708926174194199]
野生におけるAI生成コード(AIGCode)の大規模な実証的研究について紹介する。我々はAIGCodeと人書きコードとを区別するための高精度検出パイプラインとベンチマークを構築した。これにより、コミット、ファイル、関数を人間/AI軸に沿ってラベル付けし、AIGCodeがプロジェクトや脆弱性ライフサイクルをどう移動するかを追跡することができます。
論文参考訳（メタデータ） (2025-12-21T02:26:29Z)
Toward Training Superintelligent Software Agents through Self-Play SWE-RL [66.11447353341926]
セルフプレイSWE-RLは、超知能ソフトウェアエージェントのトレーニングパラダイムに向けた第一歩である。当社のアプローチでは,ソースコードとインストール済みの依存関係を備えたサンドボックスリポジトリへのアクセスのみを必要としています。我々の成果は、早い段階で、エージェントが現実世界のソフトウェアリポジトリから広範囲にわたる学習経験を自律的に収集する道のりを示唆している。
論文参考訳（メタデータ） (2025-12-21T00:49:40Z)
A Causal Perspective on Measuring, Explaining and Mitigating Smells in LLM-Generated Code [49.09545217453401]
Propensity Smelly Score (PSC) は、特定の臭いの種類を生成する確率を推定する計量である。我々は、生成戦略、モデルサイズ、モデルアーキテクチャ、および生成したコードの構造特性をいかに形成するかを識別する。 PSCは、開発者がモデルの振る舞いを解釈し、コード品質を評価するのに役立つ。
論文参考訳（メタデータ） (2025-11-19T19:18:28Z)
Human-Written vs. AI-Generated Code: A Large-Scale Study of Defects, Vulnerabilities, and Complexity [4.478789600295493]
本稿では,人間の開発者と最先端のLLMであるChatGPT,DeepSeek-Coder,Qwen-Coderの3つのコードを比較した。我々の評価は、PythonとJavaの2つの広く使われている言語で500万以上のコードサンプルにまたがっており、Orthogonal Defect ClassificationとCommon Weaknessionを使ったセキュリティ脆弱性によって欠陥を分類している。 AI生成コードは一般的にシンプルで、未使用のコンストラクトやハードコードになりがちであるのに対して、人間書きのコードはより構造的な複雑さを示し、保守性の問題の集中度が高い。
論文参考訳（メタデータ） (2025-08-29T13:51:28Z)
Cognitive Kernel-Pro: A Framework for Deep Research Agents and Agent Foundation Models Training [67.895981259683]
汎用AIエージェントは、次世代人工知能の基礎となるフレームワークとして、ますます認識されている。現在のエージェントシステムはクローズドソースか、さまざまな有料APIやプロプライエタリなツールに大きく依存している。我々は,完全オープンソースかつ(最大限に)フリーなマルチモジュールエージェントフレームワークであるCognitive Kernel-Proを提案する。
論文参考訳（メタデータ） (2025-08-01T08:11:31Z)
Code with Me or for Me? How Increasing AI Automation Transforms Developer Workflows [60.04362496037186]
本研究は,コーディングエージェントと開発者インタラクションを制御した最初の研究である。我々は,2つの主要な協調型およびエージェント型符号化アシスタントの評価を行った。結果から,エージェントはコピロトを超える方法で開発者を支援することができることがわかった。
論文参考訳（メタデータ） (2025-07-10T20:12:54Z)
R&D-Agent: An LLM-Agent Framework Towards Autonomous Data Science [70.1638335489284]
高レベルの機械学習エンジニアリングタスクは、労働集約的で反復的である。機械学習プロセスを形式化する包括的で分離されたフレームワークであるR&D-Agentを紹介します。 R&D-AgentはMLEを2つのフェーズと6つのコンポーネントに定義し、MLEのエージェント設計を原則としてテスト可能なプロセスに変える。
論文参考訳（メタデータ） (2025-05-20T06:07:00Z)
RedCode: Risky Code Execution and Generation Benchmark for Code Agents [50.81206098588923]
RedCodeはリスクの高いコード実行と生成のためのベンチマークである。 RedCode-Execは、危険なコード実行につながる可能性のある、挑戦的なプロンプトを提供する。 RedCode-Genは160のプロンプトに関数シグネチャとドキュメントを入力として提供し、コードエージェントが命令に従うかどうかを評価する。
論文参考訳（メタデータ） (2024-11-12T13:30:06Z)
An Empirical Study on Automatically Detecting AI-Generated Source Code: How Far Are We? [8.0988059417354]
本稿では,AI生成コード検出の性能向上のための様々な手法を提案する。我々の最良のモデルは最先端のAI生成コード検出器(GPTSniffer)より優れており、F1スコアは82.55である。
論文参考訳（メタデータ） (2024-11-06T22:48:18Z)
Evaluating Software Development Agents: Patch Patterns, Code Quality, and Issue Complexity in Real-World GitHub Scenarios [13.949319911378826]
この調査は、500の現実のGitHubイシューで上位10のエージェントから4,892のパッチを評価した。一人のエージェントが支配的であり、170の問題が未解決であり、改善の余地があった。ほとんどのエージェントはコードの信頼性とセキュリティを維持し、新しいバグや脆弱性を避けた。一部のエージェントはコードの複雑さを増し、多くの重複を減らし、コードの臭いを最小限にした。
論文参考訳（メタデータ） (2024-10-16T11:33:57Z)
Generation Probabilities Are Not Enough: Uncertainty Highlighting in AI Code Completions [54.55334589363247]
本研究では,不確実性に関する情報を伝達することで,プログラマがより迅速かつ正確にコードを生成することができるかどうかを検討する。トークンのハイライトは、編集される可能性が最も高いので、タスクの完了が早くなり、よりターゲットを絞った編集が可能になることがわかりました。
論文参考訳（メタデータ） (2023-02-14T18:43:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。