論文の概要: CodeCoT: Tackling Code Syntax Errors in CoT Reasoning for Code
Generation
- arxiv url: http://arxiv.org/abs/2308.08784v2
- Date: Fri, 23 Feb 2024 04:56:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 18:20:46.647547
- Title: CodeCoT: Tackling Code Syntax Errors in CoT Reasoning for Code
Generation
- Title(参考訳): CodeCoT:コード生成のためのCoT推論におけるコード構文エラーの対処
- Authors: Dong Huang, Qingwen Bu, Yuhao Qing, Heming Cui
- Abstract要約: チェーン・オブ・シント(CoT)は、複雑な推論タスクにおいて特に有効であるとして、NLPの画期的なツールとして登場した。
コード生成のための自己検査プロセスとCoTを統合したCode Chain-of-Thought(CodeCoT)を提案する。
- 参考スコア(独自算出の注目度): 6.139760107605468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-thought (CoT) has emerged as a groundbreaking tool in NLP, notably
for its efficacy in complex reasoning tasks, such as mathematical proofs.
However, its application in code generation faces a distinct challenge, i.e.,
although the code generated with CoT reasoning is logically correct, it faces
the problem of syntax error (e.g., invalid syntax error report) during code
execution, which causes the CoT result's pass@1 in HumanEval even lower than
the zero-shot result.
In this paper, we present Code Chain-of-Thought (CodeCoT) that integrates CoT
with a self-examination process for code generation. CodeCoT begins with the
LLMs using CoT for initial code development to ensure the generated code
follows the correct logic flow. Then, CodeCoT will generate test cases to
validate whether the code has syntax errors during the execution. CodeCoT then
employs a self-examination phase, in which the generated code is executed
against these test cases in the local environment. If the local environment
raises error information (e.g., invalid syntax error), CodeCoT will iteratively
refine the code based on the feedback information. Within this loop, CodeCoT
can make sure their generated codes not only follow the logic flow of the code
description, but the syntax error will also be addressed with the
self-examination process. Our evaluation results reveal that CodeCoT improves
the effectiveness of code generation. For example, CodeCoT increases pass@1
from 75.6% to 79.3% for the HumanEval dataset.
- Abstract(参考訳): chain-of-thought (cot) はnlpの画期的なツールとして登場し、特に数学的証明のような複雑な推論タスクにおいて有効である。
しかし、コード生成におけるそのアプリケーションは、CoT推論で生成されたコードは論理的に正しいが、コード実行中の構文エラー(例えば、無効な構文エラーレポート)の問題に直面しているため、HumanEvalのCoT結果のpass@1はゼロショット結果よりもさらに低い。
本稿では,コード生成のための自己検査プロセスとCoTを統合したCode Chain-of-Thought(CodeCoT)を提案する。
CodeCoTは、生成したコードが正しい論理フローに従うことを保証するために、初期コード開発にCoTを使用するLLMから始まる。
次に、CodeCoTは、実行中にコードが構文エラーがあるかどうかを検証するテストケースを生成する。
CodeCoTは自己検査フェーズを使用し、生成されたコードはローカル環境でこれらのテストケースに対して実行される。
ローカル環境がエラー情報(例えば、無効な構文エラー)を上げると、CodeCoTはフィードバック情報に基づいてコードを反復的に洗練する。
このループの中で、codecotは、生成されたコードがコード記述のロジックフローに従うだけでなく、構文エラーも自己検査プロセスで対処できるようにします。
評価の結果,CodeCoTはコード生成の有効性を向上することがわかった。
例えば、CodeCoTは、HumanEvalデータセットのpass@1を75.6%から79.3%に増加させる。
関連論文リスト
- CodeCoR: An LLM-Based Self-Reflective Multi-Agent Framework for Code Generation [10.048098631259876]
コード生成は、自然言語で書かれた要求を自動的に満たすコードを生成することを目的としている。
ChatGPTのような大きな言語モデル(LLM)は、生成されたコードの構文的および意味論的正確性を保証するのに失敗する。
我々は,各エージェントとそのコラボレーションの有効性を評価する,自己表現型マルチエージェントフレームワークであるCodeCoRを提案する。
論文 参考訳(メタデータ) (2025-01-14T03:21:10Z) - Tree-of-Code: A Tree-Structured Exploring Framework for End-to-End Code Generation and Execution in Complex Task Handling [4.597983734278579]
Tree-of-Codeは1/4回転未満でCodeActよりも精度を20%近く向上させる。
いくつかのLDMは、マルチターンのCodeActよりも、1ターンのCodeProgramの方がパフォーマンスが良い。
論文 参考訳(メタデータ) (2024-12-19T12:31:22Z) - Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.26365849822932]
我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。
コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。
実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
論文 参考訳(メタデータ) (2024-09-20T14:49:51Z) - CodeSift: An LLM-Based Reference-Less Framework for Automatic Code Validation [3.22798929957223]
大規模言語モデル(LLM)はコード生成を大いに促進してきたが、生成されたコードの機能的正確性を保証することは依然として課題である。
従来のバリデーション手法は、多くの場合、大量のコードに対して時間がかかり、エラーが発生し、実用的ではない。
コード検証のファーストラインフィルタとしてLLMを活用する新しいフレームワークであるCodeSiftを紹介します。
論文 参考訳(メタデータ) (2024-08-28T08:32:21Z) - Iterative Refinement of Project-Level Code Context for Precise Code Generation with Compiler Feedback [29.136378191436396]
我々は,コンパイラフィードバックを用いてLLM生成コードを改善する新しいコード生成手法であるCoCoGenを提案する。
CoCoGenは、まず静的解析を利用して、生成されたコードとプロジェクトのコンテキストのミスマッチを特定する。
その後、コードリポジトリから抽出された情報を使用して、識別されたエラーを反復的に調整し、修正する。
論文 参考訳(メタデータ) (2024-03-25T14:07:27Z) - COCO: Testing Code Generation Systems via Concretized Instructions [33.13427092832396]
COCOは、コード生成システムの堅牢性をテストする技術である。
これは、コード生成システムの使用シナリオを利用して、元のプログラミング命令をより具体的にする。
我々はCOCOをCopilotやChatGPTといった商用ツールを含む8つの先進的なコード生成システムで評価した。
論文 参考訳(メタデータ) (2023-08-25T11:49:27Z) - InterCode: Standardizing and Benchmarking Interactive Coding with
Execution Feedback [50.725076393314964]
標準的な強化学習環境として,インタラクティブコーディングの軽量でフレキシブルで使いやすいフレームワークであるInterCodeを紹介した。
私たちのフレームワークは、言語とプラットフォームに依存しない、自己完結型のDocker環境を使用して、安全で再現可能な実行を提供します。
我々は、異なるプロンプト戦略で構成された複数の最先端LLMを評価することにより、InterCodeの生存性をテストベッドとして示す。
論文 参考訳(メタデータ) (2023-06-26T17:59:50Z) - Code Execution with Pre-trained Language Models [88.04688617516827]
コードインテリジェンスのトレーニング済みモデルのほとんどは実行トレースを無視しており、ソースコードと構文構造のみに依存している。
我々は,大規模かつ現実的なPythonデータセットとコード実行タスクを作成するために,突然変異に基づくデータ拡張手法を開発した。
次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。
論文 参考訳(メタデータ) (2023-05-08T10:00:05Z) - Soft-Labeled Contrastive Pre-training for Function-level Code
Representation [127.71430696347174]
textbfSoft-labeled contrastive pre-training framework with two positive sample construction method。
大規模コードコーパスにおけるコード間の関連性を考慮すると、ソフトラベル付きコントラスト付き事前学習は、きめ細かいソフトラベルを得ることができる。
SCodeRは、7つのデータセットで4つのコード関連タスクに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T05:17:37Z) - CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。
CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。
我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文 参考訳(メタデータ) (2022-07-21T10:18:37Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。