Fugu-MT 論文翻訳(概要): LLMs are Bug Replicators: An Empirical Study on LLMs' Capability in Completing Bug-prone Code

論文の概要: LLMs are Bug Replicators: An Empirical Study on LLMs' Capability in Completing Bug-prone Code

arxiv url: http://arxiv.org/abs/2503.11082v1
Date: Fri, 14 Mar 2025 04:48:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-17 22:04:29.174785
Title: LLMs are Bug Replicators: An Empirical Study on LLMs' Capability in Completing Bug-prone Code
Title（参考訳）: LLMはバグリプリケータである:Bug-proneコード補完におけるLLMの能力に関する実証的研究
Authors: Liwei Guo, Sixiang Ye, Zeyu Sun, Xiang Chen, Yuxia Zhang, Bo Wang, Jie M. Zhang, Zheng Li, Yong Liu,
Abstract要約: 大規模言語モデル(LLM)は、コード補完において顕著なパフォーマンスを示している。本稿では,LLMがバグ発生コードを完成させる際の性能を評価するための,最初の実証的研究について述べる。
参考スコア（独自算出の注目度）: 24.048639099281324
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have demonstrated remarkable performance in code completion. However, the training data used to develop these models often contain a significant amount of buggy code. Yet, it remains unclear to what extent these buggy instances influence LLMs' performance when tackling bug-prone code completion tasks. To fill this gap, this paper presents the first empirical study evaluating the performance of LLMs in completing bug-prone code. Through extensive experiments on 7 LLMs and the Defects4J dataset, we analyze LLMs' accuracy, robustness, and limitations in this challenging context. Our experimental results show that completing bug-prone code is significantly more challenging for LLMs than completing normal code. Notably, in bug-prone tasks, the likelihood of LLMs generating correct code is nearly the same as generating buggy code, and it is substantially lower than in normal code completion tasks (e.g., 12.27% vs. 29.85% for GPT-4). To our surprise, 44.44% of the bugs LLMs make are completely identical to the pre-fix version, indicating that LLMs have been seriously biased by historical bugs when completing code. Additionally, we investigate the effectiveness of existing post-processing techniques and find that while they can improve consistency, they do not significantly reduce error rates in bug-prone code scenarios. Our research highlights the limitations of current LLMs in handling bug-prone code and underscores the need for improved models and post-processing strategies to enhance code completion accuracy in real-world development environments.
Abstract（参考訳）: 大規模言語モデル(LLM)は、コード補完において顕著なパフォーマンスを示している。しかしながら、これらのモデルを開発するのに使用されるトレーニングデータには、かなりの量のバグコードが含まれていることが多い。しかし、バグが発生しやすいコード補完タスクに取り組む際に、これらのバグインスタンスがLLMのパフォーマンスにどの程度影響するかは、まだ不明である。このギャップを埋めるために,本論文では,バグ発生コードを完成させる際のLLMの性能を評価するための実証的研究を行った。 7つのLLMとDefects4Jデータセットに関する広範な実験を通じて、この困難な状況下でのLLMの正確性、堅牢性、限界を分析します。実験結果から,LLMでは通常のコードよりもバグが発生しやすいことが示唆された。特にバグが発生しやすいタスクでは、正しいコードを生成するLLMはバグのあるコードを生成するのとほとんど同じであり、通常のコード補完タスク(例えば、GPT-4では12.27%対29.85%)よりもかなり低い。驚いたことに、LLMのバグの44.44%は修正前のバージョンと完全に同一であり、LLMがコードを完成させる際に歴史的なバグによって深刻なバイアスを受けていることを示している。さらに,既存のポストプロセッシング手法の有効性について検討し,一貫性を向上できる一方で,バグが発生しやすいコードシナリオにおけるエラー率を著しく低減できないことを見出した。我々の研究は、バグが発生しやすいコードを扱う際の現在のLLMの限界を強調し、実際の開発環境でコード補完の精度を高めるための改善されたモデルと後処理戦略の必要性を強調している。

関連論文リスト

How Accurately Do Large Language Models Understand Code? [4.817546726074033]
大規模言語モデル(LLM)は、コードの修復やテストといった開発後のタスクでますます使われています。コードの理解の定量化は、その抽象的な性質と標準化されたメトリクスの欠如のために難しい。本稿では,LLMのコード理解能力に関する大規模な実証的研究を行った。
論文参考訳（メタデータ） (2025-04-06T05:59:29Z)
Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。 LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。 LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文参考訳（メタデータ） (2025-03-10T09:26:08Z)
Fixing Function-Level Code Generation Errors for Foundation Large Language Models [6.137340149146578]
生成エラーに関する実証的研究を行い、その原因の分析を行い、19種類のエラー原因を導出する。私たちの経験的分析では、これらの3つの原因が直接修正可能であることが示されています。本稿では,この3種類のエラーを3段階のプロセスで処理するLlmFix法を提案する。
論文参考訳（メタデータ） (2024-09-01T09:40:15Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Towards Understanding the Characteristics of Code Generation Errors Made by Large Language Models [10.519984835232359]
大規模言語モデル(LLM)はコード生成において前例のない機能を示している。我々は,HumanEvalデータセット上の6つの代表的なLCMに対して,コード生成エラーの詳細な解析を行った。 LLMによるコード生成エラーの発見と修正には,いくつかの課題が浮かび上がっている。
論文参考訳（メタデータ） (2024-06-13T01:29:52Z)
Bugs in Large Language Models Generated Code: An Empirical Study [12.625305075672456]
コード用の大規模言語モデル(LLM)が最近注目を集めている。人間書きのコードと同様、LLM生成コードはバグを起こしやすい。本稿では,3つのLLMを用いて生成されたコードから収集した333個のバグのサンプルについて検討する。
論文参考訳（メタデータ） (2024-03-13T20:12:01Z)
DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (2024-01-09T15:46:38Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Evaluating Diverse Large Language Models for Automatic and General Bug Reproduction [12.851941377433285]
大規模言語モデル(LLM)は自然言語処理やコード生成に適していることが証明されている。提案手法は,広く使用されているDefects4Jベンチマークにおいて,全バグの約3分の1を再現することができた。
論文参考訳（メタデータ） (2023-11-08T08:42:30Z)
The GitHub Recent Bugs Dataset for Evaluating LLM-based Debugging Applications [20.339673903885483]
大規模言語モデル(LLM)は、強力な自然言語処理とコード合成機能を示している。 LLMのトレーニングデータの詳細は公開されていないことが多く、既存のバグベンチマークが含まれているかどうかが懸念されている。このデータセットには、OpenAIデータカットオフポイント後に収集された76の現実世界のJavaバグが含まれている。
論文参考訳（メタデータ） (2023-10-20T02:37:44Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文参考訳（メタデータ） (2023-09-07T17:45:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。