論文の概要: CodeT: Code Generation with Generated Tests
- arxiv url: http://arxiv.org/abs/2207.10397v1
- Date: Thu, 21 Jul 2022 10:18:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 12:27:49.964356
- Title: CodeT: Code Generation with Generated Tests
- Title(参考訳): CodeT: 生成テストによるコード生成
- Authors: Bei Chen, Fengji Zhang, Anh Nguyen, Daoguang Zan, Zeqi Lin, Jian-Guang
Lou, Weizhu Chen
- Abstract要約: テストケースを自動的に生成するための事前学習言語モデルについて検討する。
CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。
我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
- 参考スコア(独自算出の注目度): 49.622590050797236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a programming problem, pre-trained language models such as Codex have
demonstrated the ability to generate multiple different code solutions via
sampling. However, selecting a correct or best solution from those samples
still remains a challenge. While an easy way to verify the correctness of a
code solution is through executing test cases, producing high-quality test
cases is prohibitively expensive. In this paper, we explore the use of
pre-trained language models to automatically generate test cases, calling our
method CodeT: Code generation with generated Tests. CodeT executes the code
solutions using the generated test cases, and then chooses the best solution
based on a dual execution agreement with both the generated test cases and
other generated solutions. We evaluate CodeT on five different pre-trained
models with both HumanEval and MBPP benchmarks. Extensive experimental results
demonstrate CodeT can achieve significant, consistent, and surprising
improvements over previous methods. For example, CodeT improves the pass@1 on
HumanEval to 65.8%, an increase of absolute 18.8% on the code-davinci-002
model, and an absolute 20+% improvement over previous state-of-the-art results.
- Abstract(参考訳): プログラミングの問題から、Codexのような事前訓練された言語モデルは、サンプリングによって複数の異なるコードソリューションを生成する能力を示した。
しかし、これらのサンプルから正しい解または最良の解を選択することは依然として困難である。
コードソリューションの正しさを検証する簡単な方法は、テストケースを実行することですが、高品質のテストケースを作成することは、極めて高価です。
本稿では,事前学習した言語モデルを用いてテストケースを自動的に生成し,そのメソッドをcodet: code generation with generated testsと呼ぶ。
codetは生成したテストケースを使用してコードソリューションを実行し、生成したテストケースと他の生成したソリューションの両方との二重実行合意に基づいて最適なソリューションを選択する。
我々は,HumanEvalおよびMBPPベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
大規模な実験の結果は、CodeTが以前の方法よりも大きく、一貫性があり、驚くべき改善を達成できることを示している。
例えば、CodeTはHumanEvalのpass@1を65.8%に改善し、code-davinci-002モデルでは絶対18.8%が増加し、過去の最先端結果よりも20%以上改善されている。
関連論文リスト
- StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Code-Aware Prompting: A study of Coverage Guided Test Generation in
Regression Setting using LLM [34.07127332725332]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
我々のアプローチは、事前訓練されたLLMが、追加の訓練をすることなく、より完全なテストケースを生成することを可能にする。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z) - AgentCoder: Multi-Agent-based Code Generation with Iterative Testing and
Optimisation [11.396924441349263]
本稿では,マルチエージェント・アシスタント・コード生成(AgentCoder)を紹介する。
AgentCoderは,プログラマエージェント,テストデザイナエージェント,テストエグゼクタエージェントという,特殊なエージェントを備えたマルチエージェントフレームワークを備えた,斬新なソリューションだ。
9つのコード生成モデルと12つの拡張アプローチの実験では、既存のコード生成モデルよりもAgentCoderの方が優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-12-20T13:22:41Z) - Neural Rankers for Code Generation via Inter-Cluster Modeling [7.491371671334251]
textitSRankは、コード生成から最良のソリューションを選択するための、新しい優先順位付け戦略である。
クラスタ間の機能の重複を定量化することで、我々のアプローチはより良いランキング戦略を提供する。
実験結果から,pass@1のスコアで顕著な結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-16T22:20:31Z) - CAT-LM: Training Language Models on Aligned Code And Tests [19.526181671936243]
テストはソフトウェア開発プロセスにおいて不可欠な部分だ。しかし、テストを書くのに時間がかかり、しばしば無視される。
我々は270億のパラメータを持つGPTスタイルの言語モデルであるAligned Code And Tests Language Model (CAT-LM)を提案する。
論文 参考訳(メタデータ) (2023-10-02T19:52:22Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Coder Reviewer Reranking for Code Generation [56.80381384717]
本稿では,コード言語モデルから多様なプログラムを抽出し,モデル確率で再ランク付けする手法として,Coder-Reviewerの再ランク付けを提案する。
実験の結果、Coder-Reviewerのリランクは、Coderモデルのみのリランクよりも一貫性と大幅な改善をもたらすことが示された。
Coder-Reviewerのリランクは、プロンプトによって実装が容易で、異なるプログラミング言語に一般化でき、既定のハイパーパラメータとうまく機能する。
論文 参考訳(メタデータ) (2022-11-29T18:56:33Z) - Soft-Labeled Contrastive Pre-training for Function-level Code
Representation [127.71430696347174]
textbfSoft-labeled contrastive pre-training framework with two positive sample construction method。
大規模コードコーパスにおけるコード間の関連性を考慮すると、ソフトラベル付きコントラスト付き事前学習は、きめ細かいソフトラベルを得ることができる。
SCodeRは、7つのデータセットで4つのコード関連タスクに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T05:17:37Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Unit Test Case Generation with Transformers and Focal Context [10.220204860586582]
AthenaTestは、現実世界の焦点メソッドと開発者が記述したテストケースから学習することで、単体テストケースを生成することを目的としている。
我々は,Javaにおける単体テストケースメソッドとそれに対応する焦点メソッドの並列コーパスとして最大規模で公開されているMethods2Testを紹介する。
AthenaTestを5つの欠陥4jプロジェクトで評価し、30回の試行で焦点メソッドの43.7%をカバーする25Kパステストケースを生成した。
論文 参考訳(メタデータ) (2020-09-11T18:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。