論文の概要: Fixing Code Generation Errors for Large Language Models
- arxiv url: http://arxiv.org/abs/2409.00676v1
- Date: Sun, 1 Sep 2024 09:40:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 12:52:28.666207
- Title: Fixing Code Generation Errors for Large Language Models
- Title(参考訳): 大規模言語モデルのためのコード生成エラーの修正
- Authors: Hao Wen, Yueheng Zhu, Chao Liu, Xiaoxue Ren, Weiwei Du, Meng Yan,
- Abstract要約: LLM(Large Language Models)は、ソフトウェア開発のためのソースコードを自動生成するように設計されている。
LLMの生成したコードは、しばしばテストケースをパスせず、エラーを修正するためにかなりの人的努力を必要とする。
LlmFixと呼ばれる3種類のエラーを3段階のプロセスで処理する手法を提案する。
- 参考スコア(独自算出の注目度): 6.137340149146578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code generation leverages artificial intelligence technologies, particularly Large Language Models (LLMs), to automatically produce source code, enhancing software development efficiency and reducing repetitive tasks. However, the LLMs' generated code often fails to pass test cases and requires substantial human effort to fix errors. Previous studies focused on better prompts or improving LLMs' capability but ignored why LLMs failed. In this paper, we first reproduced 14 LLMs, including GPT-3.5-turbo and 13 open-source LLMs, on the HumanEval dataset. We extracted 12,837 code generation errors and conducted an in-depth analysis of their causes, which led to the identification of 19 distinct error causes. Our empirical analysis indicated that three of these causes can be directly fixed. Consequently, we proposed a fixing method called LlmFix, which addresses these three types of errors through a three-step process: filtering code for indentation correction, truncating redundant generated code, and importing missing modules. Experimental results demonstrate that LlmFix can fix these three types of errors, significantly improving the performance of 14 LLMs on HumanEval and MBPP datasets with average increases of 9.5% and 5.4%, respectively.
- Abstract(参考訳): コード生成は人工知能技術、特にLarge Language Models (LLM)を活用し、ソースコードの自動生成、ソフトウェア開発効率の向上、反復タスクの削減を行う。
しかし、LLMの生成したコードは、しばしばテストケースをパスせず、エラーを修正するのにかなりの人的努力を必要とする。
これまでの研究はLLMの能力の向上や改善に重点を置いていたが、LLMが失敗した理由を無視した。
本稿では,まずGPT-3.5-turboと13個のオープンソースLLMを含む14個のLLMをHumanEvalデータセット上に再現した。
12,837個のコード生成誤りを抽出し,その原因を詳細に解析し,19個のエラー原因を同定した。
私たちの経験的分析では、これらの3つの原因が直接修正可能であることが示されています。
その結果,LlmFixと呼ばれる3種類のエラーを3段階のプロセスで処理する修正手法を提案した。
実験の結果、LlmFixはこれらの3種類のエラーを修正でき、平均9.5%、平均5.4%の増加したHumanEvalおよびMBPPデータセット上での14のLLMのパフォーマンスを著しく改善できることが示された。
関連論文リスト
- ROCODE: Integrating Backtracking Mechanism and Program Analysis in Large Language Models for Code Generation [31.363781211927947]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
LLMはコード生成時にエラーの蓄積に影響を受けやすい。
コード生成のためのLLMにバックトラック機構とプログラム解析を統合したROCODEを提案する。
論文 参考訳(メタデータ) (2024-11-11T16:39:13Z) - Rectifier: Code Translation with Corrector via LLMs [11.38401806203093]
本稿では,翻訳誤りを修復するマイクロ・ユニバーサルモデルであるRectifierを提案する。
C++,Java,Python間の翻訳タスクの実験結果から,本モデルが有効な修復能力を有することが示された。
論文 参考訳(メタデータ) (2024-07-10T08:58:41Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - MEIC: Re-thinking RTL Debug Automation using LLMs [18.964523115622928]
本研究は,新しいフレームワーク,Make each Iteration Count(MEIC)を紹介する。
MEICは、構文と関数のエラーを識別し、修正するのに適している。
フレームワークを評価するため、178の共通RTLプログラミングエラーからなるオープンソースデータセットを提供する。
論文 参考訳(メタデータ) (2024-05-10T22:32:39Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Towards Generating Functionally Correct Code Edits from Natural Language
Issue Descriptions [11.327913840111378]
Defects4J-NL2Fixは、人気のあるDefects4Jデータセットから283のJavaプログラムのデータセットで、バグ修正の高レベルな記述を付加します。
本研究は,この課題に対するいくつかの最先端LCMの性能を実証的に評価する。
論文 参考訳(メタデータ) (2023-04-07T18:58:33Z) - Break-It-Fix-It: Unsupervised Learning for Program Repair [90.55497679266442]
我々は2つの重要なアイデアを持つ新しいトレーニング手法であるBreak-It-Fix-It (BIFI)を提案する。
批判者は、実際の悪い入力でフィクスダーの出力をチェックし、トレーニングデータに良い(固定された)出力を追加する。
これらのアイデアに基づいて、よりペア化されたデータを生成するために、ブレーカとフィクスチャを同時に使用しながら、繰り返し更新する。
BIFIは既存のメソッドより優れており、GitHub-Pythonで90.5%、DeepFixで71.7%の修正精度がある。
論文 参考訳(メタデータ) (2021-06-11T20:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。