論文の概要: Evaluating Large Language Models Trained on Code
- arxiv url: http://arxiv.org/abs/2107.03374v1
- Date: Wed, 7 Jul 2021 17:41:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 13:58:53.019313
- Title: Evaluating Large Language Models Trained on Code
- Title(参考訳): コードを用いた大規模言語モデルの評価
- Authors: Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde,
Jared Kaplan, Harri Edwards, Yura Burda, Nicholas Joseph, Greg Brockman, Alex
Ray, Raul Puri, Gretchen Krueger, Michael Petrov, Heidy Khlaaf, Girish
Sastry, Pamela Mishkin, Brooke Chan, Scott Gray, Nick Ryder, Mikhail Pavlov,
Alethea Power, Lukasz Kaiser, Mohammad Bavarian, Clemens Winter, Philippe
Tillet, Felipe Such, Dave Cummings, Matthias Plappert, Fotios Chantzis,
Elizabeth Barnes, Ariel Herbert-Voss, Will Guss, Alex Nichol, Igor
Babuschkin, Suchir Balaji, Shantanu Jain, Andrew Carr, Jan Leike, Josh
Achiam, Vedant Misra, Evan Morikawa, Alec Radford, Matthew Knight, Miles
Brundage, Mira Murati, Katie Mayer, Peter Welinder, Bob McGrew, Dario Amodei,
Sam McCandlish, Ilya Sutskever, Wojciech Zaremba
- Abstract要約: GitHubから公開されているコードに基づいて微調整されたGPT言語モデルであるCodexを紹介し、Pythonのコード記述機能について検討する。
Codexの別バージョンでは、GitHub Copilotが使用されている。
ドクストリングからプログラムを合成するための機能的正当性を測定するための新たな評価セットであるHumanEvalでは、GPT-3が0%、GPT-Jが11.4%の問題を解いた。
- 参考スコア(独自算出の注目度): 25.127754277546593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Codex, a GPT language model fine-tuned on publicly available
code from GitHub, and study its Python code-writing capabilities. A distinct
production version of Codex powers GitHub Copilot. On HumanEval, a new
evaluation set we release to measure functional correctness for synthesizing
programs from docstrings, our model solves 28.8% of the problems, while GPT-3
solves 0% and GPT-J solves 11.4%. Furthermore, we find that repeated sampling
from the model is a surprisingly effective strategy for producing working
solutions to difficult prompts. Using this method, we solve 70.2% of our
problems with 100 samples per problem. Careful investigation of our model
reveals its limitations, including difficulty with docstrings describing long
chains of operations and with binding operations to variables. Finally, we
discuss the potential broader impacts of deploying powerful code generation
technologies, covering safety, security, and economics.
- Abstract(参考訳): GitHubから公開されているコードに基づいて微調整されたGPT言語モデルであるCodexを紹介し、Pythonのコード記述機能について検討する。
codexの別個のプロダクションバージョンがgithub copilotを動かしている。
ドクストリングからプログラムを合成するための機能的正当性を測定する新しい評価セットであるHumanEvalでは、GPT-3が0%、GPT-Jが11.4%の問題を解いた。
さらに,モデルからの反復サンプリングは,難しいプロンプトに対して作業ソリューションを作成する上で,驚くほど効果的な戦略であることがわかった。
この方法を用いることで、問題の70.2%を100個のサンプルで解決する。
このモデルの注意深い調査は、操作の長いチェーンを記述するdocstringsの難しさや変数へのバインディング操作など、その限界を明らかにしています。
最後に、強力なコード生成技術をデプロイし、安全性、セキュリティ、経済性をカバーすることによる潜在的な影響について論じる。
関連論文リスト
- CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - MapCoder: Multi-Agent Code Generation for Competitive Problem Solving [3.3856216159724983]
マルチエージェントプロンプトを利用したコード生成タスクに新たなアプローチを導入する。
私たちのフレームワークであるMapCoderは、プログラム合成の段階をエミュレートするために設計された4つのLLMエージェントで構成されています。
我々の手法は、様々なプログラミング言語で一貫して優れた性能を提供する。
論文 参考訳(メタデータ) (2024-05-18T22:10:15Z) - Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。
私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。
我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文 参考訳(メタデータ) (2024-04-22T15:54:53Z) - EffiBench: Benchmarking the Efficiency of Automatically Generated Code [16.19693502619949]
EffiBenchは1,000の効率クリティカルコーディング問題のあるベンチマークである。
それぞれの問題は、実行可能な人間記述の標準解とペアリングされる。
我々は42の大規模言語モデルによる効率的なコード生成能力を実証的に検証した。
論文 参考訳(メタデータ) (2024-02-03T05:24:39Z) - Leveraging Print Debugging to Improve Code Generation in Large Language
Models [63.63160583432348]
大規模言語モデル(LLM)はコード生成タスクにおいて大きな進歩を遂げた。
しかし、複雑なデータ構造やアルゴリズムによるプログラミング問題に対処する彼らのパフォーマンスは、依然として準最適である。
そこで本稿では,LLM のデバッグを "print debugging" 手法でガイドする,コンテキスト内学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-10T18:37:59Z) - Assessing the Promise and Pitfalls of ChatGPT for Automated Code
Generation [2.0400340435492272]
本稿では,著名な大規模言語モデルであるChatGPTのコード生成能力を総合的に評価する。
5つのカテゴリにまたがる131のコード生成プロンプトのデータセットをキュレートして、堅牢な分析を可能にした。
コードソリューションはChatGPTと人間によってすべてのプロンプトで生成され、262のコードサンプルが得られた。
論文 参考訳(メタデータ) (2023-11-05T12:56:40Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - Codex Hacks HackerRank: Memorization Issues and a Framework for Code
Synthesis Evaluation [17.63332237267557]
我々は、人気のある競合プログラミングポータルであるHackerRankから115のPython問題文に基づいて、Codexモデルのコード合成機能を評価する。
評価の結果、CodexはPythonに精通しており、ゼロショット環境では96%、数ショット環境では100%の問題を解決していることがわかった。
論文 参考訳(メタデータ) (2022-12-06T00:53:38Z) - Coder Reviewer Reranking for Code Generation [56.80381384717]
本稿では,コード言語モデルから多様なプログラムを抽出し,モデル確率で再ランク付けする手法として,Coder-Reviewerの再ランク付けを提案する。
実験の結果、Coder-Reviewerのリランクは、Coderモデルのみのリランクよりも一貫性と大幅な改善をもたらすことが示された。
Coder-Reviewerのリランクは、プロンプトによって実装が容易で、異なるプログラミング言語に一般化でき、既定のハイパーパラメータとうまく機能する。
論文 参考訳(メタデータ) (2022-11-29T18:56:33Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。