論文の概要: Measuring Coding Challenge Competence With APPS
- arxiv url: http://arxiv.org/abs/2105.09938v1
- Date: Thu, 20 May 2021 17:58:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 15:12:54.590083
- Title: Measuring Coding Challenge Competence With APPS
- Title(参考訳): APPSによる符号化チャレンジ能力の測定
- Authors: Dan Hendrycks and Steven Basart and Saurav Kadavath and Mantas Mazeika
and Akul Arora and Ethan Guo and Collin Burns and Samir Puranik and Horace He
and Dawn Song and Jacob Steinhardt
- Abstract要約: コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
- 参考スコア(独自算出の注目度): 54.22600767666257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While programming is one of the most broadly applicable skills in modern
society, modern machine learning models still cannot code solutions to basic
problems. It can be difficult to accurately assess code generation performance,
and there has been surprisingly little work on evaluating code generation in a
way that is both flexible and rigorous. To meet this challenge, we introduce
APPS, a benchmark for code generation. Unlike prior work in more restricted
settings, our benchmark measures the ability of models to take an arbitrary
natural language specification and generate Python code fulfilling this
specification. Similar to how companies assess candidate software developers,
we then evaluate models by checking their generated code on test cases. Our
benchmark includes 10,000 problems, which range from having simple one-line
solutions to being substantial algorithmic challenges. We fine-tune large
language models on both GitHub and our training set, and we find that the
prevalence of syntax errors is decreasing exponentially. Recent models such as
GPT-Neo can pass approximately 15% of the test cases of introductory problems,
so we find that machine learning models are beginning to learn how to code. As
the social significance of automatic code generation increases over the coming
years, our benchmark can provide an important measure for tracking
advancements.
- Abstract(参考訳): プログラミングは現代社会で最も広く応用できるスキルの1つだが、現代の機械学習モデルは依然として基本的な問題に対する解決策をコーディングできない。
コード生成のパフォーマンスを正確に評価することは難しく、柔軟性と厳格性の両方を備えた方法でコード生成を評価する作業は驚くほど少ない。
この課題に対処するために、コード生成のベンチマークであるAPPSを紹介する。
より制限された設定での以前の作業とは異なり、我々のベンチマークはモデルが任意の自然言語仕様を取り込み、この仕様を満たすPythonコードを生成する能力を測定する。
企業がソフトウェア開発者の候補を評価する方法と同様に、テストケースで生成されたコードをチェックすることでモデルを評価する。
ベンチマークには1万の問題が含まれており、単純な1行のソリューションから、アルゴリズム上の大きな課題までさまざまです。
GitHubとトレーニングセットの両方で大きな言語モデルを微調整し、構文エラーの頻度が指数関数的に減少していることに気付きました。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできるため、機械学習モデルはコーディングの仕方を学び始めている。
自動コード生成の社会的重要性が今後数年間で高まるにつれて、我々のベンチマークは進歩を追跡する上で重要な指標となる。
関連論文リスト
- Should Code Models Learn Pedagogically? A Preliminary Evaluation of Curriculum Learning for Real-World Software Engineering Tasks [2.0072624123275533]
近年の研究では、合成コードの難易度に基づく漸進的な学習により、カリキュラム学習がコード関連タスクのパフォーマンスを向上させることが示されている。
本稿では,コードクローン検出とコード要約のタスクを通じて,事前学習されたコードモデル(CodeT5)がCLの下でどのように学習されるかを検討する。
CodeXGLUEベンチマークに関する実証研究は、これまでの研究と対照的な結果を示し、そのモデルでは破滅的な忘れ込みとショートカット学習の兆候が見られた。
論文 参考訳(メタデータ) (2025-02-06T06:33:08Z) - CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings [70.95565672516979]
LiveCodeBenchやUSACOといった既存のベンチマークは、プライベートテストケースの可用性の欠如、特別な審査員のサポートの欠如、不整合実行環境のために不足している。
CodeEloは標準化された競合レベルのコード生成ベンチマークで、これらすべての課題に初めて効果的に対処する。
論文 参考訳(メタデータ) (2025-01-02T13:49:00Z) - Can OpenSource beat ChatGPT? -- A Comparative Study of Large Language Models for Text-to-Code Generation [0.24578723416255752]
テキスト・ツー・コード生成の能力について,5つの大言語モデル (LLM) を評価した。
ChatGPTはこれらの典型的なプログラミング課題を、Code Llamaのようなコード特化モデルよりもはるかに効果的に処理することができる。
論文 参考訳(メタデータ) (2024-09-06T10:03:49Z) - PythonSaga: Redefining the Benchmark to Evaluate Code Generating LLMs [1.9207412600219353]
我々はPythonコード生成のベンチマークを2つ評価し、その多様性と難易度を分析した。
我々の発見は、限られたプログラミング概念に対する批判的な偏見を示し、他の概念のほとんどを無視した。
我々は,38のプログラミング概念をバランスよく表現した185個の手作りプロンプトを特徴とする新しいベンチマークPythonSagaを提案する。
論文 参考訳(メタデータ) (2024-01-08T12:36:43Z) - The Good, the Bad, and the Missing: Neural Code Generation for Machine
Learning Tasks [11.837851107416588]
本稿では,既存のニューラルコード生成モデルが機械学習プログラミングタスクに与える影響について検討する。
我々は6つの最先端のニューラルコード生成モデルを選択し、その性能を4つの広く使われているMLライブラリで評価する。
私たちの経験的研究は、MLタスクにおけるニューラルネットワーク生成モデルの優れた、悪い、欠落した側面を明らかにします。
論文 参考訳(メタデータ) (2023-05-16T00:52:02Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z) - Automatic Generation of Programming Exercises and Code Explanations with
Large Language Models [4.947560475228859]
OpenAI Codexは、GPT-3ファミリーの最近の大規模言語モデルで、コードを自然言語に翻訳する。
プログラミング演習の2つの段階において,Codexの自然言語生成能力について検討する。
自動生成されるコンテンツの大部分は、新しいものでも、理にかなったものでも、多くの場合、そのまま使えるものなのです。
論文 参考訳(メタデータ) (2022-06-03T11:00:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。