論文の概要: Can LLMs be Effective Code Contributors? A Study on Open-source Projects
- arxiv url: http://arxiv.org/abs/2604.23340v1
- Date: Sat, 25 Apr 2026 15:00:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.280318
- Title: Can LLMs be Effective Code Contributors? A Study on Open-source Projects
- Title(参考訳): LLMは効果的なコードコントリビュータになれるか?
- Authors: Chun Jie Chong, Muyeed Ahmed, Zhihao, Yao, Iulian Neamtiu,
- Abstract要約: このようなプロジェクトにおけるLCM生成の欠点を明らかにするためのアプローチを提案する。
このフレームワークを8つの人気のあるオープンソースプロジェクトと3つのLLMで212のコミットに適用する。
成功率はプロジェクトによって0%から60%に変化した。
- 参考スコア(独自算出の注目度): 0.3425341633647625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-generated code is widely used, and the share of committed code produced by LLMs is expected to increase. However, we are not at a point where LLMs can be effective contributors to production code. We present an approach that exposes the shortcomings of LLM generation on such projects, and proposes recommendations; the targets of our study are sizable open-source projects, e.g., FFmpeg and wolfSSL. First, we developed a framework that uses verification and validation to evaluate a given LLM's suitability to fix or add features to an existing project. Second, we apply the framework to 212 commits (bug fixes and small feature improvements) in eight popular open-source projects and three LLMs: GPT-4o, Ministral3, and Qwen3-Coder. The success rate varied from 0% to 60% depending on the project. The LLMs failed in a variety of ways, from generating syntactically incorrect code, to producing code that fails basic (static) verification, or validation via the project's test suite. In particular, the LLMs struggle with generating new code, handling contexts (function or file) outside a certain size range, and in many cases their success is due to parroting code changes they have been trained on.
- Abstract(参考訳): LLM生成コードは広く使われており、LLMが生成するコミットコードのシェアは増加すると予想されている。
しかし、LLMが本番コードに効果的なコントリビュータになるような状況には至っていません。
本稿では,LLM生成の問題点を明らかにするアプローチを提案し,推奨事項を提案する。
まず、検証と検証を使用して、既存のプロジェクトに機能を追加したり、修正したりするための LLM の適合性を評価するフレームワークを開発しました。
次に、このフレームワークを8つの人気のあるオープンソースプロジェクトと3つのLCM(GPT-4o、Ministral3、Qwen3-Coder)で212のコミット(バグ修正と小さな機能改善)に適用する。
成功率はプロジェクトによって0%から60%に変化した。
LLMは、構文的に誤ったコードを生成すること、基本的な(静的な)検証に失敗するコードを生成すること、プロジェクトのテストスイートによる検証など、さまざまな方法で失敗した。
特にLLMは、特定のサイズ範囲外のコンテキスト(関数やファイル)を扱い、新しいコードを生成するのに苦労している。
関連論文リスト
- An Experimental Study of Real-Life LLM-Proposed Performance Improvements [2.503024366864326]
大きな言語モデル(LLM)はコードを生成することができますが、高速コードを生成することができますか?
我々は,オープンソースのJavaプログラムから抽出した65の実世界のタスクのデータセットを用いて,この問題を研究する。
論文 参考訳(メタデータ) (2025-10-17T10:06:52Z) - The Fools are Certain; the Wise are Doubtful: Exploring LLM Confidence in Code Completion [4.215010577170175]
コードパープレキシティの測定により,コード生成時のLLM(Large Language Models)の信頼性を評価する。
強い型付け言語は動的型付け言語よりも難易度が低いことがわかった。
Perlは難易度が普遍的に高いが、Javaは低いように見える。
論文 参考訳(メタデータ) (2025-08-22T06:51:13Z) - Can LLMs Replace Humans During Code Chunking? [2.4056836012742]
大規模言語モデル(LLM)は、特にコード理解と生成に関わるタスクにおいて、コンピュータ科学において重要なツールとなっている。
本稿では,ALC および MUMPS で記述されたレガシ行政コードの近代化における LLM の適用について検討する。
論文 参考訳(メタデータ) (2025-06-24T13:02:35Z) - An Empirical Study of Many-to-Many Summarization with Large Language Models [82.10000188179168]
大規模言語モデル(LLM)は強い多言語能力を示しており、実アプリケーションでM2MS(Multi-to-Many summarization)を実行する可能性を秘めている。
本研究は,LLMのM2MS能力に関する系統的研究である。
論文 参考訳(メタデータ) (2025-05-19T11:18:54Z) - Combining LLM Code Generation with Formal Specifications and Reactive Program Synthesis [0.7580487359358722]
大規模言語モデル(LLM)は精度に苦しむが、リスクの高いアプリケーションには適さない。
コード生成を LLM で処理する部分と,形式的なメソッドベースのプログラム合成で処理する部分の2つに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-09-18T15:59:06Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - DevEval: A Manually-Annotated Code Generation Benchmark Aligned with Real-World Code Repositories [83.5195424237358]
既存のベンチマークは、現実世界のコードリポジトリと不整合である。
我々はDevEvalという新しいベンチマークを提案し、これは3つの進歩がある。
DevEvalは117のリポジトリから1,874のサンプルを持ち、10の人気のあるドメインをカバーする。
論文 参考訳(メタデータ) (2024-05-30T09:03:42Z) - Iterative Refinement of Project-Level Code Context for Precise Code Generation with Compiler Feedback [29.136378191436396]
我々は,コンパイラフィードバックを用いてLLM生成コードを改善する新しいコード生成手法であるCoCoGenを提案する。
CoCoGenは、まず静的解析を利用して、生成されたコードとプロジェクトのコンテキストのミスマッチを特定する。
その後、コードリポジトリから抽出された情報を使用して、識別されたエラーを反復的に調整し、修正する。
論文 参考訳(メタデータ) (2024-03-25T14:07:27Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。