論文の概要: AI-Generated Code Is Not Reproducible (Yet): An Empirical Study of Dependency Gaps in LLM-Based Coding Agents
- arxiv url: http://arxiv.org/abs/2512.22387v1
- Date: Fri, 26 Dec 2025 21:17:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.02396
- Title: AI-Generated Code Is Not Reproducible (Yet): An Empirical Study of Dependency Gaps in LLM-Based Coding Agents
- Title(参考訳): AI生成コードは再現不可能(Yet): LLMベースの符号化エージェントにおける依存性ギャップの実証的研究
- Authors: Bhanu Prakash Vangala, Ali Adibifar, Tanu Malik, Ashish Gehani,
- Abstract要約: 本稿では,Large Language Models (LLMs) がOSパッケージのみでクリーンな環境で実行可能であるかどうかを実証研究する。
我々は、Python、JavaScript、Javaで100の標準化プロンプトから生成される300のプロジェクトに対して、最先端のLLMコーディングエージェントを3つ評価した。
その結果、68.3%のプロジェクトはアウト・オブ・ザ・ボックスで実行されており、言語によってかなり異なることが判明した。
- 参考スコア(独自算出の注目度): 3.0684671771686394
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rise of Large Language Models (LLMs) as coding agents promises to accelerate software development, but their impact on generated code reproducibility remains largely unexplored. This paper presents an empirical study investigating whether LLM-generated code can be executed successfully in a clean environment with only OS packages and using only the dependencies that the model specifies. We evaluate three state-of-the-art LLM coding agents (Claude Code, OpenAI Codex, and Gemini) across 300 projects generated from 100 standardized prompts in Python, JavaScript, and Java. We introduce a three-layer dependency framework (distinguishing between claimed, working, and runtime dependencies) to quantify execution reproducibility. Our results show that only 68.3% of projects execute out-of-the-box, with substantial variation across languages (Python 89.2%, Java 44.0%). We also find a 13.5 times average expansion from declared to actual runtime dependencies, revealing significant hidden dependencies.
- Abstract(参考訳): コーディングエージェントとしてのLarge Language Models(LLMs)の台頭は、ソフトウェア開発を加速することを約束するが、生成されたコード再現性への影響は、まだ明らかになっていない。
本稿では,OSパッケージのみを用いて,モデルが規定する依存関係のみを用いて,LCM生成したコードがクリーンな環境で実行可能であるかどうかを実証研究する。
我々は、Python、JavaScript、Javaで100の標準化プロンプトから生成される300のプロジェクトに対して、最先端のLLMコーディングエージェント(Claude Code、OpenAI Codex、Gemini)を3つ評価した。
実行再現性を定量化する3層依存関係フレームワーク(クレーム、動作、実行時の依存関係を識別する)を導入します。
私たちの結果は68.3%のプロジェクトがアウト・オブ・ザ・ボックスを実行しており、言語によって大きく異なる(Python 89.2%、Java 44.0%)。
また、宣言されたランタイム依存から実際のランタイム依存への平均13.5倍の拡張が見られ、重大な隠れた依存関係が明らかになりました。
関連論文リスト
- Evaluating Large Language Models for Functional and Maintainable Code in Industrial Settings: A Case Study at ASML [3.5515013986822073]
本研究は,Aのレベル管理部門と共同で実施した事例研究である。
閉鎖的,高度に専門化されたソフトウェア環境において,機能的,保守性のあるコードを生成する上でのLLMの性能について検討する。
その結果、プロンプト技術とモデルサイズが出力品質に重大な影響を与えることが明らかとなった。
論文 参考訳(メタデータ) (2025-09-15T19:39:26Z) - Can Language Models Replace Programmers for Coding? REPOCOD Says 'Not Yet' [9.48622608877252]
大規模言語モデル(LLM)の機能を評価するために、多くのリポジトリレベルのコード生成ベンチマークが登場した。
これらのベンチマークは、短い補完、合成例、または限られたスケールのリポジトリに焦点を当て、現実世界のコーディングタスクを表現できない。
実世界の大規模プロジェクトで現実的な依存関係を持つ複雑なタスクを含むPythonコード生成ベンチマークであるREPOCODを作成します。
論文 参考訳(メタデータ) (2024-10-29T01:21:05Z) - Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。
OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。
我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文 参考訳(メタデータ) (2024-10-09T08:23:22Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。