論文の概要: Bugs in Large Language Models Generated Code
- arxiv url: http://arxiv.org/abs/2403.08937v1
- Date: Wed, 13 Mar 2024 20:12:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 22:37:06.291383
- Title: Bugs in Large Language Models Generated Code
- Title(参考訳): 大規模言語モデルのバグ生成コード
- Authors: Florian Tambon, Arghavan Moradi Dakhel, Amin Nikanjam, Foutse Khomh, Michel C. Desmarais, Giuliano Antoniol,
- Abstract要約: コード用の大規模言語モデル(LLM)が最近注目を集めている。
人間書きのコードと同様、LLM生成コードはバグを起こしやすい。
本稿では,3つのLLMを用いて生成されたコードから収集した333個のバグのサンプルについて検討する。
- 参考スコア(独自算出の注目度): 12.625305075672456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) for code have gained significant attention recently. They can generate code in different programming languages based on provided prompts, fulfilling a long-lasting dream in Software Engineering (SE), i.e., automatic code generation. Similar to human-written code, LLM-generated code is prone to bugs, and these bugs have not yet been thoroughly examined by the community. Given the increasing adoption of LLM-based code generation tools (e.g., GitHub Copilot) in SE activities, it is critical to understand the characteristics of bugs contained in code generated by LLMs. This paper examines a sample of 333 bugs collected from code generated using three leading LLMs (i.e., CodeGen, PanGu-Coder, and Codex) and identifies the following 10 distinctive bug patterns: Misinterpretations, Syntax Error, Silly Mistake, Prompt-biased code, Missing Corner Case, Wrong Input Type, Hallucinated Object, Wrong Attribute, Incomplete Generation, and Non-Prompted Consideration. The bug patterns are presented in the form of a taxonomy. The identified bug patterns are validated using an online survey with 34 LLM practitioners and researchers. The surveyed participants generally asserted the significance and prevalence of the bug patterns. Researchers and practitioners can leverage these findings to develop effective quality assurance techniques for LLM-generated code. This study sheds light on the distinctive characteristics of LLM-generated code.
- Abstract(参考訳): コード用の大規模言語モデル(LLM)が最近注目を集めている。
彼らは提供されたプロンプトに基づいて異なるプログラミング言語でコードを生成することができ、ソフトウェア工学(SE)における長年の夢、すなわち自動コード生成を実現する。
人間によるコードと同様、LLM生成コードはバグを起こしやすいため、これらのバグはまだコミュニティによって徹底的に調査されていない。
LLMベースのコード生成ツール(GitHub Copilotなど)をSEアクティビティに採用することを考えると、LLMが生成するコードに含まれるバグの特徴を理解することが重要である。
本稿では,3つの主要なLCM(CodeGen,PanGu-Coder,Codex)を用いて生成されたコードから収集された333のバグのサンプルを分析し,解釈,構文エラー,シリーミス,プロンプトバイアスドコード,ミス・コーナー・ケース,ロング入力型,ハロシントオブジェクト,ロング属性,不完全生成,非プロンプト・リフレクションの10種類のバグパターンを同定する。
バグパターンは分類の形で示されます。
特定されたバグパターンは、34人のLSM実践者と研究者によるオンライン調査によって検証される。
調査参加者は一般的に、バグパターンの重要性と頻度を主張した。
研究者や実践者はこれらの知見を利用して、LLM生成コードの効果的な品質保証技術を開発することができる。
本研究は, LLM生成符号の特徴について光を当てる。
関連論文リスト
- CodeHalu: Code Hallucinations in LLMs Driven by Execution-based Verification [27.67210769524277]
大規模言語モデル(LLM)はコード生成の分野で大きな進歩を遂げた。
LLMは時に、もっともらしいように見えるコードを生成するが、期待される要件を満たすことができず、正しく実行されないことがある。
本研究では,コード幻覚の概念を初めて紹介する。
論文 参考訳(メタデータ) (2024-04-30T23:56:38Z) - Iterative Refinement of Project-Level Code Context for Precise Code Generation with Compiler Feedback [29.136378191436396]
大規模言語モデル(LLM)は、コードの自動生成において顕著な進歩を示している。
しかし、LLMベースのコード生成を実際のソフトウェアプロジェクトに組み込むことが課題となっている。
本稿では,プロジェクトレベルのコードコンテキストを反復的に洗練するProCoderという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-25T14:07:27Z) - InfiCoder-Eval: Systematically Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiCoder-Evalは、コードのQAベンチマークである。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiCoder-Eval 上で 80 以上のコード LLM に対して,系統的な評価を行い,一連の知見を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [69.99031792995348]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [89.13051256657995]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用モデルと3つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - Language Models are Better Bug Detector Through Code-Pair Classification [0.26107298043931204]
本稿では,バグギー版とバグギー版の両方をモデルに付与するコードペア分類タスクを提案し,バグギー版とバグギー版を識別する。
実験によると、LLMはバグのないバージョンのコードからバグを拾うことができ、コードペアの分類タスクはスニペットを与え、バグが存在するかどうかを判断するよりもずっと簡単である。
論文 参考訳(メタデータ) (2023-11-14T07:20:57Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - Can ChatGPT replace StackOverflow? A Study on Robustness and Reliability
of Large Language Model Code Generation [8.575560293086289]
大規模言語モデル(LLM)は、自然言語を理解し、プログラミングコードを生成する素晴らしい能力を示している。
生成されたコードにおけるAPIの誤用は、リソースリークやプログラムクラッシュといった深刻な問題を引き起こす可能性がある。
論文 参考訳(メタデータ) (2023-08-20T18:36:28Z) - Large Language Models of Code Fail at Completing Code with Potential
Bugs [30.80172644795715]
リアルタイムコード提案に触発されたバグコード補完問題について検討する。
潜在的なバグの存在は、高性能なCode-LLMの生成性能を著しく低下させる。
論文 参考訳(メタデータ) (2023-06-06T06:35:27Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。