論文の概要: EffiBench: Benchmarking the Efficiency of Automatically Generated Code
- arxiv url: http://arxiv.org/abs/2402.02037v2
- Date: Thu, 15 Feb 2024 15:57:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 18:40:28.577555
- Title: EffiBench: Benchmarking the Efficiency of Automatically Generated Code
- Title(参考訳): EffiBench: 自動生成コードの効率をベンチマークする
- Authors: Dong Huang, Jie M.Zhang, Yuhao Qing, Heming Cui
- Abstract要約: GPT-4-turboは最も効率的なコードを生成し、Palm-2-chat-bison、Claude-instant-1、Gemini-pro、GPT-4、GPT-3.5を著しく上回っている。
GPT-4-turbo生成コードの平均実行時間は、標準解の1.69倍と45.49倍である。
- 参考スコア(独自算出の注目度): 13.85357787564053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code generation models have increasingly become integral to aiding software
development, offering assistance in tasks such as code completion, debugging,
and code translation. Although current research has thoroughly examined the
correctness of code produced by code generation models, a vital aspect, i.e.,
the efficiency of the generated code, has often been neglected. This paper
presents EffiBench, a benchmark with 1,000 efficiency-critical coding problems
for assessing the efficiency of code generated by code generation models.
EffiBench contains a diverse set of LeetCode coding problems. Each problem is
paired with an executable human-written canonical solution. With EffiBench, we
empirically examine the capability of 21 Large Language Models (13 open-sourced
and 8 closed-sourced) in generating efficient code. The results demonstrate
that GPT-4-turbo generates the most efficient code, significantly outperforming
Palm-2-chat-bison, Claude-instant-1, Gemini-pro, GPT-4, and GPT-3.5.
Nevertheless, its code efficiency is still worse than the efficiency of
human-written canonical solutions. In particular, the average and worst
execution time of GPT-4-turbo generated code is 1.69 and 45.49 times that of
the canonical solutions.
- Abstract(参考訳): コード生成モデルは、コード補完、デバッギング、コード翻訳といったタスクを支援することで、ソフトウェア開発を支援するためにますます不可欠なものになっています。
現在の研究では、コード生成モデルによって生成されるコードの正確性について徹底的に検討されているが、重要な側面、すなわち生成されたコードの効率性はしばしば無視されている。
本稿では,コード生成モデルが生成するコード効率を評価するために,1000の効率クリティカルなコーディング問題を持つベンチマークeffibenchを提案する。
EffiBenchにはさまざまなLeetCodeコーディング問題が含まれている。
各問題は実行可能な人間による正準解とペアリングされる。
EffiBenchでは、効率的なコードを生成する上で、21の大規模言語モデル(13のオープンソースと8のクローズドソース)の能力を実証的に検証する。
その結果, GPT-4-turboはPalm-2-chat-bison, Claude-instant-1, Gemini-pro, GPT-4, GPT-3.5を著しく上回った。
それでも、そのコード効率は、人間の書いた正準ソリューションの効率よりも悪い。
特に、GPT-4-turbo生成コードの平均実行時間は、標準解の1.69倍と45.49倍である。
関連論文リスト
- NaturalCodeBench: Examining Coding Performance Mismatch on HumanEval and Natural User Prompts [31.783388267874738]
NaturalCodeBench (NCB) は、実際のコーディングタスクにおける複雑さと様々なシナリオを反映した、挑戦的なコードベンチマークである。
NCBは、PythonとJavaの402の高品質な問題で構成されており、オンラインコーディングサービスからの自然なユーザクエリから慎重に選択されている。
39 LLMの系統的実験により,NCBにおけるHumanEvalスコアが近いモデル間の性能ギャップが依然として大きいことが判明した。
論文 参考訳(メタデータ) (2024-05-07T17:52:51Z) - A systematic evaluation of large language models for generating
programming code [0.0]
GPT-4は、Gemini UltraやClaude 2など、他の大きな言語モデルよりも大幅に優れている。
この研究で評価されたほとんどのLeetCodeとGeeksforGeeksのコーディングコンテストにおいて、最適のプロンプト戦略を採用するGPT-4は、人間の参加者の85%を上回っている。
論文 参考訳(メタデータ) (2024-03-01T14:43:06Z) - OpenCodeInterpreter: Integrating Code Generation with Execution and
Refinement [58.034012276819425]
我々はOpenCodeInterpreterを紹介した。OpenCodeInterpreterは、コードを生成、実行、反復的に精製するためのオープンソースのコードシステムのファミリーである。
我々は,HumanEvalやMBPP,EvalPlusの強化バージョンなど,主要なベンチマークを対象としたOpenCodeInterpreterの総合評価を行った。
論文 参考訳(メタデータ) (2024-02-22T16:06:23Z) - Leveraging Print Debugging to Improve Code Generation in Large Language
Models [63.63160583432348]
大規模言語モデル(LLM)はコード生成タスクにおいて大きな進歩を遂げた。
しかし、複雑なデータ構造やアルゴリズムによるプログラミング問題に対処する彼らのパフォーマンスは、依然として準最適である。
そこで本稿では,LLM のデバッグを "print debugging" 手法でガイドする,コンテキスト内学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-10T18:37:59Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - COCO: Testing Code Generation Systems via Concretized Instructions [33.13427092832396]
COCOは、コード生成システムの堅牢性をテストする技術である。
これは、コード生成システムの使用シナリオを利用して、元のプログラミング命令をより具体的にする。
我々はCOCOをCopilotやChatGPTといった商用ツールを含む8つの先進的なコード生成システムで評価した。
論文 参考訳(メタデータ) (2023-08-25T11:49:27Z) - No Need to Lift a Finger Anymore? Assessing the Quality of Code Generation by ChatGPT [28.68768157452352]
本稿では,ChatGPTを用いたコード生成の質について検討する。
私たちは5つの言語(C、C++、Java、Python、JavaScript)で728のアルゴリズム問題と、コード生成タスクの54のコードシナリオを持つ18のCWEを活用しています。
この結果から,ChatGPTベースのコード生成に生じる潜在的な問題や限界が明らかになった。
論文 参考訳(メタデータ) (2023-08-09T10:01:09Z) - AI-assisted coding: Experiments with GPT-4 [0.22366638308792727]
GPT-4は、かなりのカバレッジでテストを生成することができるが、ほとんどのテストは関連するコードに適用されない。
これらの結果は、AIコーディングツールは非常に強力であるが、結果の妥当性と正確性を保証するためには、まだ人間を必要とすることを示唆している。
論文 参考訳(メタデータ) (2023-04-25T22:59:01Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。
CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。
我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文 参考訳(メタデータ) (2022-07-21T10:18:37Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。