論文の概要: LLMs are Bug Replicators: An Empirical Study on LLMs' Capability in Completing Bug-prone Code
- arxiv url: http://arxiv.org/abs/2503.11082v1
- Date: Fri, 14 Mar 2025 04:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:41.384519
- Title: LLMs are Bug Replicators: An Empirical Study on LLMs' Capability in Completing Bug-prone Code
- Title(参考訳): LLMはバグリプリケータである:Bug-proneコード補完におけるLLMの能力に関する実証的研究
- Authors: Liwei Guo, Sixiang Ye, Zeyu Sun, Xiang Chen, Yuxia Zhang, Bo Wang, Jie M. Zhang, Zheng Li, Yong Liu,
- Abstract要約: 大規模言語モデル(LLM)は、コード補完において顕著なパフォーマンスを示している。
本稿では,LLMがバグ発生コードを完成させる際の性能を評価するための,最初の実証的研究について述べる。
- 参考スコア(独自算出の注目度): 24.048639099281324
- License:
- Abstract: Large Language Models (LLMs) have demonstrated remarkable performance in code completion. However, the training data used to develop these models often contain a significant amount of buggy code. Yet, it remains unclear to what extent these buggy instances influence LLMs' performance when tackling bug-prone code completion tasks. To fill this gap, this paper presents the first empirical study evaluating the performance of LLMs in completing bug-prone code. Through extensive experiments on 7 LLMs and the Defects4J dataset, we analyze LLMs' accuracy, robustness, and limitations in this challenging context. Our experimental results show that completing bug-prone code is significantly more challenging for LLMs than completing normal code. Notably, in bug-prone tasks, the likelihood of LLMs generating correct code is nearly the same as generating buggy code, and it is substantially lower than in normal code completion tasks (e.g., 12.27% vs. 29.85% for GPT-4). To our surprise, 44.44% of the bugs LLMs make are completely identical to the pre-fix version, indicating that LLMs have been seriously biased by historical bugs when completing code. Additionally, we investigate the effectiveness of existing post-processing techniques and find that while they can improve consistency, they do not significantly reduce error rates in bug-prone code scenarios. Our research highlights the limitations of current LLMs in handling bug-prone code and underscores the need for improved models and post-processing strategies to enhance code completion accuracy in real-world development environments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード補完において顕著なパフォーマンスを示している。
しかしながら、これらのモデルを開発するのに使用されるトレーニングデータには、かなりの量のバグコードが含まれていることが多い。
しかし、バグが発生しやすいコード補完タスクに取り組む際に、これらのバグインスタンスがLLMのパフォーマンスにどの程度影響するかは、まだ不明である。
このギャップを埋めるために,本論文では,バグ発生コードを完成させる際のLLMの性能を評価するための実証的研究を行った。
7つのLLMとDefects4Jデータセットに関する広範な実験を通じて、この困難な状況下でのLLMの正確性、堅牢性、限界を分析します。
実験結果から,LLMでは通常のコードよりもバグが発生しやすいことが示唆された。
特にバグが発生しやすいタスクでは、正しいコードを生成するLLMはバグのあるコードを生成するのとほとんど同じであり、通常のコード補完タスク(例えば、GPT-4では12.27%対29.85%)よりもかなり低い。
驚いたことに、LLMのバグの44.44%は修正前のバージョンと完全に同一であり、LLMがコードを完成させる際に歴史的なバグによって深刻なバイアスを受けていることを示している。
さらに,既存のポストプロセッシング手法の有効性について検討し,一貫性を向上できる一方で,バグが発生しやすいコードシナリオにおけるエラー率を著しく低減できないことを見出した。
我々の研究は、バグが発生しやすいコードを扱う際の現在のLLMの限界を強調し、実際の開発環境でコード補完の精度を高めるための改善されたモデルと後処理戦略の必要性を強調している。
関連論文リスト
- Rethinking the Influence of Source Code on Test Case Generation [22.168699378889148]
大規模言語モデル(LLM)は、コンテキストとして提供されるテスト対象のソースコードでテスト生成を支援するために広く応用されている。
テスト中のソースコードが間違っていれば、LLMはテストの生成時に誤用されるだろうか?
評価結果から, 誤りコードは, 正しい, 高いカバレッジ, バグ修正テストを生成する際に, LLMを著しく誤解させる可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-14T15:17:34Z) - Fixing Function-Level Code Generation Errors for Foundation Large Language Models [6.137340149146578]
生成エラーに関する実証的研究を行い、その原因の分析を行い、19種類のエラー原因を導出する。
私たちの経験的分析では、これらの3つの原因が直接修正可能であることが示されています。
本稿では,この3種類のエラーを3段階のプロセスで処理するLlmFix法を提案する。
論文 参考訳(メタデータ) (2024-09-01T09:40:15Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Bugs in Large Language Models Generated Code: An Empirical Study [12.625305075672456]
コード用の大規模言語モデル(LLM)が最近注目を集めている。
人間書きのコードと同様、LLM生成コードはバグを起こしやすい。
本稿では,3つのLLMを用いて生成されたコードから収集した333個のバグのサンプルについて検討する。
論文 参考訳(メタデータ) (2024-03-13T20:12:01Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Evaluating Diverse Large Language Models for Automatic and General Bug
Reproduction [12.851941377433285]
大規模言語モデル(LLM)は自然言語処理やコード生成に適していることが証明されている。
提案手法は,広く使用されているDefects4Jベンチマークにおいて,全バグの約3分の1を再現することができた。
論文 参考訳(メタデータ) (2023-11-08T08:42:30Z) - The GitHub Recent Bugs Dataset for Evaluating LLM-based Debugging
Applications [20.339673903885483]
大規模言語モデル(LLM)は、強力な自然言語処理とコード合成機能を示している。
LLMのトレーニングデータの詳細は公開されていないことが多く、既存のバグベンチマークが含まれているかどうかが懸念されている。
このデータセットには、OpenAIデータカットオフポイント後に収集された76の現実世界のJavaバグが含まれている。
論文 参考訳(メタデータ) (2023-10-20T02:37:44Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。