論文の概要: Measuring Coding Challenge Competence With APPS
- arxiv url: http://arxiv.org/abs/2105.09938v1
- Date: Thu, 20 May 2021 17:58:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 15:12:54.590083
- Title: Measuring Coding Challenge Competence With APPS
- Title(参考訳): APPSによる符号化チャレンジ能力の測定
- Authors: Dan Hendrycks and Steven Basart and Saurav Kadavath and Mantas Mazeika
and Akul Arora and Ethan Guo and Collin Burns and Samir Puranik and Horace He
and Dawn Song and Jacob Steinhardt
- Abstract要約: コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
- 参考スコア(独自算出の注目度): 54.22600767666257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While programming is one of the most broadly applicable skills in modern
society, modern machine learning models still cannot code solutions to basic
problems. It can be difficult to accurately assess code generation performance,
and there has been surprisingly little work on evaluating code generation in a
way that is both flexible and rigorous. To meet this challenge, we introduce
APPS, a benchmark for code generation. Unlike prior work in more restricted
settings, our benchmark measures the ability of models to take an arbitrary
natural language specification and generate Python code fulfilling this
specification. Similar to how companies assess candidate software developers,
we then evaluate models by checking their generated code on test cases. Our
benchmark includes 10,000 problems, which range from having simple one-line
solutions to being substantial algorithmic challenges. We fine-tune large
language models on both GitHub and our training set, and we find that the
prevalence of syntax errors is decreasing exponentially. Recent models such as
GPT-Neo can pass approximately 15% of the test cases of introductory problems,
so we find that machine learning models are beginning to learn how to code. As
the social significance of automatic code generation increases over the coming
years, our benchmark can provide an important measure for tracking
advancements.
- Abstract(参考訳): プログラミングは現代社会で最も広く応用できるスキルの1つだが、現代の機械学習モデルは依然として基本的な問題に対する解決策をコーディングできない。
コード生成のパフォーマンスを正確に評価することは難しく、柔軟性と厳格性の両方を備えた方法でコード生成を評価する作業は驚くほど少ない。
この課題に対処するために、コード生成のベンチマークであるAPPSを紹介する。
より制限された設定での以前の作業とは異なり、我々のベンチマークはモデルが任意の自然言語仕様を取り込み、この仕様を満たすPythonコードを生成する能力を測定する。
企業がソフトウェア開発者の候補を評価する方法と同様に、テストケースで生成されたコードをチェックすることでモデルを評価する。
ベンチマークには1万の問題が含まれており、単純な1行のソリューションから、アルゴリズム上の大きな課題までさまざまです。
GitHubとトレーニングセットの両方で大きな言語モデルを微調整し、構文エラーの頻度が指数関数的に減少していることに気付きました。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできるため、機械学習モデルはコーディングの仕方を学び始めている。
自動コード生成の社会的重要性が今後数年間で高まるにつれて、我々のベンチマークは進歩を追跡する上で重要な指標となる。
関連論文リスト
- Can OpenSource beat ChatGPT? -- A Comparative Study of Large Language Models for Text-to-Code Generation [0.24578723416255752]
テキスト・ツー・コード生成の能力について,5つの大言語モデル (LLM) を評価した。
ChatGPTはこれらの典型的なプログラミング課題を、Code Llamaのようなコード特化モデルよりもはるかに効果的に処理することができる。
論文 参考訳(メタデータ) (2024-09-06T10:03:49Z) - An Empirical Study on Self-correcting Large Language Models for Data Science Code Generation [1.335664823620186]
大規模言語モデル(LLM)は最近、ソフトウェア工学のタスクに多くの応用を進歩させた。
CoT-SelfEvolveは、自己修正プロセスを通じて、反復的かつ自動的にコードを洗練する。
論文 参考訳(メタデータ) (2024-08-28T09:19:09Z) - PythonSaga: Redefining the Benchmark to Evaluate Code Generating LLMs [1.9207412600219353]
我々はPythonコード生成のベンチマークを2つ評価し、その多様性と難易度を分析した。
我々の発見は、限られたプログラミング概念に対する批判的な偏見を示し、他の概念のほとんどを無視した。
我々は,38のプログラミング概念をバランスよく表現した185個の手作りプロンプトを特徴とする新しいベンチマークPythonSagaを提案する。
論文 参考訳(メタデータ) (2024-01-08T12:36:43Z) - Exploring Continual Learning for Code Generation Models [80.78036093054855]
継続的学習(CL)は、コードドメインの中でまだ過小評価されていない重要な側面である。
コード生成,翻訳,要約,改良など,幅広いタスクをカバーするCodeTask-CLというベンチマークを導入する。
即時選択機構の不安定な訓練により,プロンプトプール (PP) などの有効手法が破滅的な忘れ込みに悩まされることが判明した。
論文 参考訳(メタデータ) (2023-07-05T16:58:39Z) - The Good, the Bad, and the Missing: Neural Code Generation for Machine
Learning Tasks [11.837851107416588]
本稿では,既存のニューラルコード生成モデルが機械学習プログラミングタスクに与える影響について検討する。
我々は6つの最先端のニューラルコード生成モデルを選択し、その性能を4つの広く使われているMLライブラリで評価する。
私たちの経験的研究は、MLタスクにおけるニューラルネットワーク生成モデルの優れた、悪い、欠落した側面を明らかにします。
論文 参考訳(メタデータ) (2023-05-16T00:52:02Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z) - Automatic Generation of Programming Exercises and Code Explanations with
Large Language Models [4.947560475228859]
OpenAI Codexは、GPT-3ファミリーの最近の大規模言語モデルで、コードを自然言語に翻訳する。
プログラミング演習の2つの段階において,Codexの自然言語生成能力について検討する。
自動生成されるコンテンツの大部分は、新しいものでも、理にかなったものでも、多くの場合、そのまま使えるものなのです。
論文 参考訳(メタデータ) (2022-06-03T11:00:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。