論文の概要: CodeCoT and Beyond: Learning to Program and Test like a Developer
- arxiv url: http://arxiv.org/abs/2308.08784v1
- Date: Thu, 17 Aug 2023 04:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 17:54:50.349087
- Title: CodeCoT and Beyond: Learning to Program and Test like a Developer
- Title(参考訳): CodeCoTとBeyond: 開発者としてのプログラミングとテストを学ぶ
- Authors: Dong Huang, Qingwen Bu, Heming Cui
- Abstract要約: 自然言語処理では、トランスフォーマーベースの大規模言語モデル(LLM)がランドスケープに革命をもたらした。
LLMはタスク固有の最小限のデータで適応することができる。
CoT(Chain-of-Thought Prompting)として知られる革新的な戦略が、多段階の推論において認知過程を明らかにするためにLSMを導くために導入された。
本稿では,Vanilla CodeCoTとSelf-exam CodeCoTの2つのコンポーネントからなるCode Chain-of-Thought(CodeCoT)を提案する。
- 参考スコア(独自算出の注目度): 6.342682314442665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In natural language processing, transformer-based large language models
(LLMs) like GPT-x models developed by OpenAI have revolutionized the landscape.
Despite their impressive capabilities, these models often encounter challenges
when handling tasks that differ from their training data, resulting in
compromised performance. To address this, few-shot learning has emerged as a
valuable technique, allowing LLMs to adapt with minimal task-specific data. One
innovative strategy, known as Chain-of-Thought Prompting (CoT), has been
introduced to guide LLMs in revealing cognitive processes during multi-step
reasoning. In this paper, we propose Code Chain-of-Thought~(CodeCoT), which
consists of two components: the Vanilla CodeCoT and the Self-exam CodeCoT. The
latter incorporates self-examination, empowering the model to iteratively
generate code, formulate test cases, and refine its outputs. Specifically, the
process entails the generation of test examples by the model corresponding to
the code it is tasked to implement. If it fails on the test examples, then it
regenerates the code based on the erroneous code and associated error types.
Through comprehensive experiments, we observed that both techniques
significantly enhance code generation accuracy across various LLM variants. Our
evaluation results reveal that CodeCoT improves the code generation
effectiveness, including an unprecedented pass@1 accuracy of 79.27\% using the
Self-exam CodeCoT approach on the gpt-3.5-turbo-0613 model in the HumanEval
dataset.
- Abstract(参考訳): 自然言語処理において、OpenAIによって開発されたGPT-xモデルのようなトランスフォーマーベースの大規模言語モデル(LLM)は、ランドスケープに革命をもたらした。
優れた能力にもかかわらず、これらのモデルはトレーニングデータとは異なるタスクを扱う際にしばしば課題に遭遇し、結果としてパフォーマンスが損なわれる。
これを解決するために、LLMが最小限のタスク固有データで適応できるように、少数のショット学習が貴重なテクニックとして登場した。
CoT(Chain-of-Thought Prompting)として知られる革新的な戦略が、多段階の推論において認知過程を明らかにするためにLSMを導くために導入された。
本稿では,Vanilla CodeCoTとSelf-exam CodeCoTの2つのコンポーネントからなるCode Chain-of-Thought~(CodeCoT)を提案する。
後者は自己検査を取り入れ、モデルを反復的にコードを生成し、テストケースを定式化し、出力を洗練させる。
具体的には、そのプロセスは実装すべきコードに対応するモデルによるテスト例の生成を必要とする。
テスト例で失敗した場合、誤ったコードと関連するエラータイプに基づいてコードを再生成する。
包括的実験により,両手法は様々なLLM変種間でコード生成精度を著しく向上させることがわかった。
評価の結果,人文データセットのgpt-3.5-turbo-0613モデルを用いたセルフexam codecotアプローチにより,前例のない79.27\%のpass@1精度を含むコード生成効率が向上した。
関連論文リスト
- Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.26365849822932]
我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。
コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。
実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
論文 参考訳(メタデータ) (2024-09-20T14:49:51Z) - CodeSift: An LLM-Based Reference-Less Framework for Automatic Code Validation [3.22798929957223]
大規模言語モデル(LLM)はコード生成を大いに促進してきたが、生成されたコードの機能的正確性を保証することは依然として課題である。
従来のバリデーション手法は、多くの場合、大量のコードに対して時間がかかり、エラーが発生し、実用的ではない。
コード検証のファーストラインフィルタとしてLLMを活用する新しいフレームワークであるCodeSiftを紹介します。
論文 参考訳(メタデータ) (2024-08-28T08:32:21Z) - Code Documentation and Analysis to Secure Software Development [0.0]
CoDATは、さまざまなレベルのコードドキュメント間の一貫性を維持するように設計されたツールである。
Intellij IDEAで実装されている。
私たちは、コードの断片とそれを記述するコメントの間のセマンティックな一貫性をチェックするために、大きな言語モデルを使用します。
論文 参考訳(メタデータ) (2024-07-16T17:25:44Z) - Iterative Refinement of Project-Level Code Context for Precise Code Generation with Compiler Feedback [29.136378191436396]
我々は,コンパイラフィードバックを用いてLLM生成コードを改善する新しいコード生成手法であるCoCoGenを提案する。
CoCoGenは、まず静的解析を利用して、生成されたコードとプロジェクトのコンテキストのミスマッチを特定する。
その後、コードリポジトリから抽出された情報を使用して、識別されたエラーを反復的に調整し、修正する。
論文 参考訳(メタデータ) (2024-03-25T14:07:27Z) - INTERVENOR: Prompting the Coding Ability of Large Language Models with the Interactive Chain of Repair [42.5403218101046]
InterVENORは、人間が観察するインタラクティブなコード修復プロセスをエミュレートするシステムである。
LLMはコード修復プロセスにおいて、コード学習者とコード教師の両方として機能し、異なる役割を担います。
論文 参考訳(メタデータ) (2023-11-16T12:55:20Z) - COCO: Testing Code Generation Systems via Concretized Instructions [33.13427092832396]
COCOは、コード生成システムの堅牢性をテストする技術である。
これは、コード生成システムの使用シナリオを利用して、元のプログラミング命令をより具体的にする。
我々はCOCOをCopilotやChatGPTといった商用ツールを含む8つの先進的なコード生成システムで評価した。
論文 参考訳(メタデータ) (2023-08-25T11:49:27Z) - InterCode: Standardizing and Benchmarking Interactive Coding with
Execution Feedback [50.725076393314964]
標準的な強化学習環境として,インタラクティブコーディングの軽量でフレキシブルで使いやすいフレームワークであるInterCodeを紹介した。
私たちのフレームワークは、言語とプラットフォームに依存しない、自己完結型のDocker環境を使用して、安全で再現可能な実行を提供します。
我々は、異なるプロンプト戦略で構成された複数の最先端LLMを評価することにより、InterCodeの生存性をテストベッドとして示す。
論文 参考訳(メタデータ) (2023-06-26T17:59:50Z) - Code Execution with Pre-trained Language Models [88.04688617516827]
コードインテリジェンスのトレーニング済みモデルのほとんどは実行トレースを無視しており、ソースコードと構文構造のみに依存している。
我々は,大規模かつ現実的なPythonデータセットとコード実行タスクを作成するために,突然変異に基づくデータ拡張手法を開発した。
次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。
論文 参考訳(メタデータ) (2023-05-08T10:00:05Z) - Soft-Labeled Contrastive Pre-training for Function-level Code
Representation [127.71430696347174]
textbfSoft-labeled contrastive pre-training framework with two positive sample construction method。
大規模コードコーパスにおけるコード間の関連性を考慮すると、ソフトラベル付きコントラスト付き事前学習は、きめ細かいソフトラベルを得ることができる。
SCodeRは、7つのデータセットで4つのコード関連タスクに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T05:17:37Z) - CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。
CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。
我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文 参考訳(メタデータ) (2022-07-21T10:18:37Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。