論文の概要: Codex Hacks HackerRank: Memorization Issues and a Framework for Code
Synthesis Evaluation
- arxiv url: http://arxiv.org/abs/2212.02684v1
- Date: Tue, 6 Dec 2022 00:53:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 18:04:01.317522
- Title: Codex Hacks HackerRank: Memorization Issues and a Framework for Code
Synthesis Evaluation
- Title(参考訳): codexがhackerrankをハック: 暗記問題とコード合成評価のためのフレームワーク
- Authors: Anjan Karmakar, Julian Aron Prenner, Marco D'Ambros, Romain Robbes
- Abstract要約: 我々は、人気のある競合プログラミングポータルであるHackerRankから115のPython問題文に基づいて、Codexモデルのコード合成機能を評価する。
評価の結果、CodexはPythonに精通しており、ゼロショット環境では96%、数ショット環境では100%の問題を解決していることがわかった。
- 参考スコア(独自算出の注目度): 17.63332237267557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Codex model has demonstrated extraordinary competence in synthesizing
code from natural language problem descriptions. However, in order to reveal
unknown failure modes and hidden biases, such large-scale models must be
systematically subjected to multiple and diverse evaluation studies.
In this work, we evaluate the code synthesis capabilities of the Codex model
based on a set of 115 Python problem statements from a popular competitive
programming portal: HackerRank. Our evaluation shows that Codex is indeed
proficient in Python, solving 96% of the problems in a zero-shot setting, and
100% of the problems in a few-shot setting. However, Codex exhibits clear signs
of generating memorized code based on our evaluation. This is alarming,
especially since the adoption and use of such models could directly impact how
code is written and produced in the foreseeable future. With this in mind, we
further discuss and highlight some of the prominent risks associated with
large-scale models of source code. Finally, we propose a framework for
code-synthesis evaluation using variations of problem statements based on
mutations.
- Abstract(参考訳): Codexモデルは、自然言語の問題記述からコードを合成する素晴らしい能力を示している。
しかし、未知の障害モードや隠れバイアスを明らかにするためには、このような大規模モデルは、複数の多様な評価研究に体系的に従わなければならない。
本研究では,人気のある競合プログラミングポータルであるHackerRankから115のPython問題文をセットとして,Codexモデルのコード合成機能を評価する。
評価の結果,codexはpythonに習熟しており,ゼロショット設定では96%,数ショット設定では100%の問題を解決していることがわかった。
しかし、Codexは、我々の評価に基づいて暗記コードを生成する明確な兆候を示す。
特にこのようなモデルの採用と使用は、コードの記述方法や生成方法に直接影響を与える可能性があるため、これは非常に危険です。
このことを念頭に置いて,ソースコードの大規模モデルに関連する重要なリスクを議論し,強調する。
最後に,突然変異に基づく問題文のバリエーションを用いたコード合成評価フレームワークを提案する。
関連論文リスト
- A Static Evaluation of Code Completion by Large Language Models [65.18008807383816]
単純なプログラミング問題に対するモデル生成コードの機能的正当性を評価するために,実行ベースベンチマークが提案されている。
プログラムを実行せずにエラーを検出するlinterのような静的解析ツールは、コード生成モデルを評価するために十分に研究されていない。
抽象構文木を利用して,Pythonのコード補完における静的エラーを定量化する静的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-05T19:23:34Z) - Code Execution with Pre-trained Language Models [88.04688617516827]
コードインテリジェンスのトレーニング済みモデルのほとんどは実行トレースを無視しており、ソースコードと構文構造のみに依存している。
我々は,大規模かつ現実的なPythonデータセットとコード実行タスクを作成するために,突然変異に基づくデータ拡張手法を開発した。
次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。
論文 参考訳(メタデータ) (2023-05-08T10:00:05Z) - Large Language Models and Simple, Stupid Bugs [1.194321135334894]
Copilotは大きな言語モデル(LLM)であるCodexを使用して、前の"prompt"で条件付きコードを完成させる。
しかし、Codexは、バグや脆弱性を含む可能性のあるコードで、公開GitHubリポジトリ、viz.でトレーニングされている。
Codex と類似の LLM はいくつかの SStuB を避けるのに役立ちますが、既知の SStuB を既知の SStuB の 2 倍の確率で生成します。
論文 参考訳(メタデータ) (2023-03-20T21:14:06Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - Coder Reviewer Reranking for Code Generation [56.80381384717]
本稿では,コード言語モデルから多様なプログラムを抽出し,モデル確率で再ランク付けする手法として,Coder-Reviewerの再ランク付けを提案する。
実験の結果、Coder-Reviewerのリランクは、Coderモデルのみのリランクよりも一貫性と大幅な改善をもたらすことが示された。
Coder-Reviewerのリランクは、プロンプトによって実装が容易で、異なるプログラミング言語に一般化でき、既定のハイパーパラメータとうまく機能する。
論文 参考訳(メタデータ) (2022-11-29T18:56:33Z) - A Systematic Evaluation of Large Language Models of Code [88.34057460577957]
コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。
現在の最先端のコードLMは公開されておらず、モデルやデータ設計の決定について多くの疑問が残されている。
Codexはオープンソースではありませんが、既存のオープンソースモデルはいくつかのプログラミング言語でクローズな結果が得られることが分かりました。
GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。
論文 参考訳(メタデータ) (2022-02-26T15:53:55Z) - Evaluating Large Language Models Trained on Code [25.127754277546593]
GitHubから公開されているコードに基づいて微調整されたGPT言語モデルであるCodexを紹介し、Pythonのコード記述機能について検討する。
Codexの別バージョンでは、GitHub Copilotが使用されている。
ドクストリングからプログラムを合成するための機能的正当性を測定するための新たな評価セットであるHumanEvalでは、GPT-3が0%、GPT-Jが11.4%の問題を解いた。
論文 参考訳(メタデータ) (2021-07-07T17:41:24Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。