論文の概要: EffiBench: Benchmarking the Efficiency of Automatically Generated Code
- arxiv url: http://arxiv.org/abs/2402.02037v5
- Date: Sun, 06 Oct 2024 14:30:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 18:00:37.385347
- Title: EffiBench: Benchmarking the Efficiency of Automatically Generated Code
- Title(参考訳): EffiBench: 自動生成コードの効率をベンチマークする
- Authors: Dong Huang, Yuhao Qing, Weiyi Shang, Heming Cui, Jie M. Zhang,
- Abstract要約: EffiBenchは1,000の効率クリティカルコーディング問題のあるベンチマークである。
それぞれの問題は、実行可能な人間記述の標準解とペアリングされる。
我々は42の大規模言語モデルによる効率的なコード生成能力を実証的に検証した。
- 参考スコア(独自算出の注目度): 16.19693502619949
- License:
- Abstract: Code generation models have increasingly become integral to aiding software development. Although current research has thoroughly examined the correctness of the code produced by code generation models, a vital aspect that plays a pivotal role in green computing and sustainability efforts has often been neglected. This paper presents EffiBench, a benchmark with 1,000 efficiency-critical coding problems to assess the efficiency of code generated by code generation models. EffiBench contains a diverse set of LeetCode coding problems. Each problem is paired with an executable human-written canonical solution, which obtains the SOTA efficiency on the LeetCode solution leaderboard. With EffiBench, we empirically examine the ability of 42 large language models (35 open-source and 7 closed-source) to generate efficient code. Our evaluation results demonstrate that the efficiency of the code generated by LLMs is generally worse than the efficiency of human-written canonical solutions. For example, GPT-4 generated code has an average \textbf{3.12} times execution time that of the human-written canonical solutions. In the most extreme cases, the execution time and total memory usage of GPT-4 generated code are \textbf{13.89} and \textbf{43.92} times that of the canonical solutions. The source code of EffiBench is released on https://github.com/huangd1999/EffiBench. We also provide the LeaderBoard at https://huggingface.co/spaces/EffiBench/effibench-leaderboard.
- Abstract(参考訳): コード生成モデルは、ソフトウェア開発を支援するためにますます不可欠なものになっています。
現在の研究では、コード生成モデルが生成するコードの正しさを徹底的に調査しているが、グリーンコンピューティングと持続可能性の取り組みにおいて重要な役割を担う重要な側面は無視されていることが多い。
本稿では,コード生成モデルにより生成されたコードの効率を評価するために,1000の効率クリティカルコーディング問題を持つベンチマークであるEffiBenchを提案する。
EffiBenchにはさまざまなLeetCodeコーディング問題が含まれている。
各問題は実行可能な人間記述の標準ソリューションと組み合わせられ、LeetCodeソリューションのリーダーボード上でSOTA効率を得る。
EffiBenchでは42の大規模言語モデル(35のオープンソースと7のクローズソース)の効率的なコード生成能力を実証的に検証した。
評価の結果,LLMが生成するコードの効率は,人間の記述した標準解の効率よりも一般的に悪いことがわかった。
例えば、GPT-4 の生成したコードは、人間の記述した標準解の実行時間の平均 \textbf{3.12} を持つ。
最も極端な場合、GPT-4生成コードの実行時間と総メモリ使用量は、標準解の1倍の \textbf{13.89} と \textbf{43.92} である。
EffiBenchのソースコードはhttps://github.com/huangd 1999/EffiBenchで公開されている。
https://huggingface.co/spaces/EffiBench/effibench- Leaderboard.comでLeaderBoardを提供しています。
関連論文リスト
- Let the Code LLM Edit Itself When You Edit the Code [50.46536185784169]
underlinetextbfPositional textbfIntegrity textbfEncoding (PIE)
PIEは、標準的な完全再計算手法に比べて計算オーバーヘッドを85%以上削減する。
その結果、PIEは計算オーバーヘッドを標準の完全再計算手法に比べて85%以上削減することを示した。
論文 参考訳(メタデータ) (2024-07-03T14:34:03Z) - Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。
しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。
本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文 参考訳(メタデータ) (2024-05-24T04:35:13Z) - NaturalCodeBench: Examining Coding Performance Mismatch on HumanEval and Natural User Prompts [31.783388267874738]
NaturalCodeBench (NCB) は、実際のコーディングタスクにおける複雑さと様々なシナリオを反映した、挑戦的なコードベンチマークである。
NCBは、PythonとJavaの402の高品質な問題で構成されており、オンラインコーディングサービスからの自然なユーザクエリから慎重に選択されている。
39 LLMの系統的実験により,NCBにおけるHumanEvalスコアが近いモデル間の性能ギャップが依然として大きいことが判明した。
論文 参考訳(メタデータ) (2024-05-07T17:52:51Z) - A Controlled Experiment on the Energy Efficiency of the Source Code Generated by Code Llama [4.937787069991124]
ソフトウェア開発者の83%がコード生成にLLM(Large Language Models)を使用している。
本稿では,人手によるソースコードに関して,コードラマのエネルギー効率を評価する。
論文 参考訳(メタデータ) (2024-05-06T16:32:29Z) - Mercury: A Code Efficiency Benchmark for Code Large Language Models [41.51235610016959]
我々は、Large Language Models for Code (Code LLMs)の最初のコード効率ベンチマークであるMercuryを提示する。
1,889のPythonタスクで構成され、それぞれに現実の効率のベースラインとして機能する適切なソリューションが伴っている。
そこで我々は,機能的正当性とコード効率を同時に反映する,実行時毎のパススコアを計算する新たな指標Beyondを導入する。
論文 参考訳(メタデータ) (2024-02-12T17:53:22Z) - Code Generation with AlphaCodium: From Prompt Engineering to Flow
Engineering [6.779943486567506]
テストベース,多段階,コード指向反復流LLMによるコード生成の新しい手法を提案する。
私たちは、CodeContestsと呼ばれる挑戦的なコード生成データセットでAlphaCodiumをテストしました。
例えば、GPT-4の精度(pass@5)は19%に向上し、1つの適切に設計された直接的プロンプトはAlphaCodiumフローで44%に増加した。
論文 参考訳(メタデータ) (2024-01-16T17:00:36Z) - Leveraging Print Debugging to Improve Code Generation in Large Language
Models [63.63160583432348]
大規模言語モデル(LLM)はコード生成タスクにおいて大きな進歩を遂げた。
しかし、複雑なデータ構造やアルゴリズムによるプログラミング問題に対処する彼らのパフォーマンスは、依然として準最適である。
そこで本稿では,LLM のデバッグを "print debugging" 手法でガイドする,コンテキスト内学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-10T18:37:59Z) - Exploring Continual Learning for Code Generation Models [80.78036093054855]
継続的学習(CL)は、コードドメインの中でまだ過小評価されていない重要な側面である。
コード生成,翻訳,要約,改良など,幅広いタスクをカバーするCodeTask-CLというベンチマークを導入する。
即時選択機構の不安定な訓練により,プロンプトプール (PP) などの有効手法が破滅的な忘れ込みに悩まされることが判明した。
論文 参考訳(メタデータ) (2023-07-05T16:58:39Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - Evaluating Large Language Models Trained on Code [25.127754277546593]
GitHubから公開されているコードに基づいて微調整されたGPT言語モデルであるCodexを紹介し、Pythonのコード記述機能について検討する。
Codexの別バージョンでは、GitHub Copilotが使用されている。
ドクストリングからプログラムを合成するための機能的正当性を測定するための新たな評価セットであるHumanEvalでは、GPT-3が0%、GPT-Jが11.4%の問題を解いた。
論文 参考訳(メタデータ) (2021-07-07T17:41:24Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。