Fugu-MT 論文翻訳(概要): Evaluating Large Language Models Trained on Code

論文の概要: Evaluating Large Language Models Trained on Code

arxiv url: http://arxiv.org/abs/2107.03374v1
Date: Wed, 7 Jul 2021 17:41:24 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-08 13:58:53.019313
Title: Evaluating Large Language Models Trained on Code
Title（参考訳）: コードを用いた大規模言語モデルの評価
Authors: Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde, Jared Kaplan, Harri Edwards, Yura Burda, Nicholas Joseph, Greg Brockman, Alex Ray, Raul Puri, Gretchen Krueger, Michael Petrov, Heidy Khlaaf, Girish Sastry, Pamela Mishkin, Brooke Chan, Scott Gray, Nick Ryder, Mikhail Pavlov, Alethea Power, Lukasz Kaiser, Mohammad Bavarian, Clemens Winter, Philippe Tillet, Felipe Such, Dave Cummings, Matthias Plappert, Fotios Chantzis, Elizabeth Barnes, Ariel Herbert-Voss, Will Guss, Alex Nichol, Igor Babuschkin, Suchir Balaji, Shantanu Jain, Andrew Carr, Jan Leike, Josh Achiam, Vedant Misra, Evan Morikawa, Alec Radford, Matthew Knight, Miles Brundage, Mira Murati, Katie Mayer, Peter Welinder, Bob McGrew, Dario Amodei, Sam McCandlish, Ilya Sutskever, Wojciech Zaremba
Abstract要約: GitHubから公開されているコードに基づいて微調整されたGPT言語モデルであるCodexを紹介し、Pythonのコード記述機能について検討する。 Codexの別バージョンでは、GitHub Copilotが使用されている。ドクストリングからプログラムを合成するための機能的正当性を測定するための新たな評価セットであるHumanEvalでは、GPT-3が0%、GPT-Jが11.4%の問題を解いた。
参考スコア（独自算出の注目度）: 25.127754277546593
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce Codex, a GPT language model fine-tuned on publicly available code from GitHub, and study its Python code-writing capabilities. A distinct production version of Codex powers GitHub Copilot. On HumanEval, a new evaluation set we release to measure functional correctness for synthesizing programs from docstrings, our model solves 28.8% of the problems, while GPT-3 solves 0% and GPT-J solves 11.4%. Furthermore, we find that repeated sampling from the model is a surprisingly effective strategy for producing working solutions to difficult prompts. Using this method, we solve 70.2% of our problems with 100 samples per problem. Careful investigation of our model reveals its limitations, including difficulty with docstrings describing long chains of operations and with binding operations to variables. Finally, we discuss the potential broader impacts of deploying powerful code generation technologies, covering safety, security, and economics.
Abstract（参考訳）: GitHubから公開されているコードに基づいて微調整されたGPT言語モデルであるCodexを紹介し、Pythonのコード記述機能について検討する。 codexの別個のプロダクションバージョンがgithub copilotを動かしている。ドクストリングからプログラムを合成するための機能的正当性を測定する新しい評価セットであるHumanEvalでは、GPT-3が0%、GPT-Jが11.4%の問題を解いた。さらに,モデルからの反復サンプリングは,難しいプロンプトに対して作業ソリューションを作成する上で,驚くほど効果的な戦略であることがわかった。この方法を用いることで、問題の70.2%を100個のサンプルで解決する。このモデルの注意深い調査は、操作の長いチェーンを記述するdocstringsの難しさや変数へのバインディング操作など、その限界を明らかにしています。最後に、強力なコード生成技術をデプロイし、安全性、セキュリティ、経済性をカバーすることによる潜在的な影響について論じる。

関連論文リスト

KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding [49.56049319037421]
KodCodeは、高品質で検証可能なトレーニングデータを取得するという永続的な課題に対処する、合成データセットである。自己検証手順によって体系的に検証される質問解決テスト三つ子を含む。このパイプラインは大規模で堅牢で多様なコーディングデータセットを生成する。
論文参考訳（メタデータ） (2025-03-04T19:17:36Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文参考訳（メタデータ） (2024-11-07T00:09:54Z)
MapCoder: Multi-Agent Code Generation for Competitive Problem Solving [3.3856216159724983]
マルチエージェントプロンプトを利用したコード生成タスクに新たなアプローチを導入する。私たちのフレームワークであるMapCoderは、プログラム合成の段階をエミュレートするために設計された4つのLLMエージェントで構成されています。我々の手法は、様々なプログラミング言語で一貫して優れた性能を提供する。
論文参考訳（メタデータ） (2024-05-18T22:10:15Z)
Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文参考訳（メタデータ） (2024-04-22T15:54:53Z)
EffiBench: Benchmarking the Efficiency of Automatically Generated Code [16.19693502619949]
EffiBenchは1,000の効率クリティカルコーディング問題のあるベンチマークである。それぞれの問題は、実行可能な人間記述の標準解とペアリングされる。我々は42の大規模言語モデルによる効率的なコード生成能力を実証的に検証した。
論文参考訳（メタデータ） (2024-02-03T05:24:39Z)
Leveraging Print Debugging to Improve Code Generation in Large Language Models [63.63160583432348]
大規模言語モデル(LLM)はコード生成タスクにおいて大きな進歩を遂げた。しかし、複雑なデータ構造やアルゴリズムによるプログラミング問題に対処する彼らのパフォーマンスは、依然として準最適である。そこで本稿では,LLM のデバッグを "print debugging" 手法でガイドする,コンテキスト内学習手法を提案する。
論文参考訳（メタデータ） (2024-01-10T18:37:59Z)
Assessing the Promise and Pitfalls of ChatGPT for Automated Code Generation [2.0400340435492272]
本稿では,著名な大規模言語モデルであるChatGPTのコード生成能力を総合的に評価する。 5つのカテゴリにまたがる131のコード生成プロンプトのデータセットをキュレートして、堅牢な分析を可能にした。コードソリューションはChatGPTと人間によってすべてのプロンプトで生成され、262のコードサンプルが得られた。
論文参考訳（メタデータ） (2023-11-05T12:56:40Z)
Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文参考訳（メタデータ） (2023-10-08T10:08:21Z)
Codex Hacks HackerRank: Memorization Issues and a Framework for Code Synthesis Evaluation [17.63332237267557]
我々は、人気のある競合プログラミングポータルであるHackerRankから115のPython問題文に基づいて、Codexモデルのコード合成機能を評価する。評価の結果、CodexはPythonに精通しており、ゼロショット環境では96%、数ショット環境では100%の問題を解決していることがわかった。
論文参考訳（メタデータ） (2022-12-06T00:53:38Z)
Coder Reviewer Reranking for Code Generation [56.80381384717]
本稿では,コード言語モデルから多様なプログラムを抽出し,モデル確率で再ランク付けする手法として,Coder-Reviewerの再ランク付けを提案する。実験の結果、Coder-Reviewerのリランクは、Coderモデルのみのリランクよりも一貫性と大幅な改善をもたらすことが示された。 Coder-Reviewerのリランクは、プロンプトによって実装が容易で、異なるプログラミング言語に一般化でき、既定のハイパーパラメータとうまく機能する。
論文参考訳（メタデータ） (2022-11-29T18:56:33Z)
Piloting Copilot, Codex, and StarCoder2: Hot Temperature, Cold Prompts, or Black Magic? [4.5787730000799876]
入力変動が言語モデルの2つの構成に与える影響について検討する。我々は、これらの入力を修正して、3つのLCMベースのコードアシスタントと2つのベンチマークに適用する特定の演算子を設計する。この結果から,入力パラメータの変動により性能が大幅に向上することが示唆された。
論文参考訳（メタデータ） (2022-10-26T13:28:14Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。