論文の概要: EffiBench: Benchmarking the Efficiency of Automatically Generated Code
- arxiv url: http://arxiv.org/abs/2402.02037v2
- Date: Thu, 15 Feb 2024 15:57:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 18:40:28.577555
- Title: EffiBench: Benchmarking the Efficiency of Automatically Generated Code
- Title(参考訳): EffiBench: 自動生成コードの効率をベンチマークする
- Authors: Dong Huang, Jie M.Zhang, Yuhao Qing, Heming Cui
- Abstract要約: GPT-4-turboは最も効率的なコードを生成し、Palm-2-chat-bison、Claude-instant-1、Gemini-pro、GPT-4、GPT-3.5を著しく上回っている。
GPT-4-turbo生成コードの平均実行時間は、標準解の1.69倍と45.49倍である。
- 参考スコア(独自算出の注目度): 13.85357787564053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code generation models have increasingly become integral to aiding software
development, offering assistance in tasks such as code completion, debugging,
and code translation. Although current research has thoroughly examined the
correctness of code produced by code generation models, a vital aspect, i.e.,
the efficiency of the generated code, has often been neglected. This paper
presents EffiBench, a benchmark with 1,000 efficiency-critical coding problems
for assessing the efficiency of code generated by code generation models.
EffiBench contains a diverse set of LeetCode coding problems. Each problem is
paired with an executable human-written canonical solution. With EffiBench, we
empirically examine the capability of 21 Large Language Models (13 open-sourced
and 8 closed-sourced) in generating efficient code. The results demonstrate
that GPT-4-turbo generates the most efficient code, significantly outperforming
Palm-2-chat-bison, Claude-instant-1, Gemini-pro, GPT-4, and GPT-3.5.
Nevertheless, its code efficiency is still worse than the efficiency of
human-written canonical solutions. In particular, the average and worst
execution time of GPT-4-turbo generated code is 1.69 and 45.49 times that of
the canonical solutions.
- Abstract(参考訳): コード生成モデルは、コード補完、デバッギング、コード翻訳といったタスクを支援することで、ソフトウェア開発を支援するためにますます不可欠なものになっています。
現在の研究では、コード生成モデルによって生成されるコードの正確性について徹底的に検討されているが、重要な側面、すなわち生成されたコードの効率性はしばしば無視されている。
本稿では,コード生成モデルが生成するコード効率を評価するために,1000の効率クリティカルなコーディング問題を持つベンチマークeffibenchを提案する。
EffiBenchにはさまざまなLeetCodeコーディング問題が含まれている。
各問題は実行可能な人間による正準解とペアリングされる。
EffiBenchでは、効率的なコードを生成する上で、21の大規模言語モデル(13のオープンソースと8のクローズドソース)の能力を実証的に検証する。
その結果, GPT-4-turboはPalm-2-chat-bison, Claude-instant-1, Gemini-pro, GPT-4, GPT-3.5を著しく上回った。
それでも、そのコード効率は、人間の書いた正準ソリューションの効率よりも悪い。
特に、GPT-4-turbo生成コードの平均実行時間は、標準解の1.69倍と45.49倍である。
関連論文リスト
- Effi-Code: Unleashing Code Efficiency in Language Models [17.355845751737423]
Effi-Codeは、大規模言語モデルにおけるコード生成を強化するアプローチである。
Effi-Codeは、AIシステムのコード生成を改善するためのスケーラブルで汎用的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-10-14T07:05:51Z) - CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。
CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文 参考訳(メタデータ) (2024-10-08T01:36:15Z) - Let the Code LLM Edit Itself When You Edit the Code [50.46536185784169]
underlinetextbfPositional textbfIntegrity textbfEncoding (PIE)
PIEは、標準的な完全再計算手法に比べて計算オーバーヘッドを85%以上削減する。
その結果、PIEは計算オーバーヘッドを標準の完全再計算手法に比べて85%以上削減することを示した。
論文 参考訳(メタデータ) (2024-07-03T14:34:03Z) - Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。
しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。
本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文 参考訳(メタデータ) (2024-05-24T04:35:13Z) - EffiLearner: Enhancing Efficiency of Generated Code via Self-Optimization [16.238980494717303]
大規模言語モデル(LLM)は、コード生成の著しい進歩を示しているが、生成されたコードは、しばしば非効率に悩まされる。
実行オーバーヘッドプロファイルを利用した自己最適化フレームワークである textbfEffiLearner を提案する。
EffiLearnerはまずLLMを使ってコードを生成し、その後ローカルに実行し、実行時間とメモリ使用率プロファイルをキャプチャする。
論文 参考訳(メタデータ) (2024-05-24T03:48:15Z) - NaturalCodeBench: Examining Coding Performance Mismatch on HumanEval and Natural User Prompts [31.783388267874738]
NaturalCodeBench (NCB) は、実際のコーディングタスクにおける複雑さと様々なシナリオを反映した、挑戦的なコードベンチマークである。
NCBは、PythonとJavaの402の高品質な問題で構成されており、オンラインコーディングサービスからの自然なユーザクエリから慎重に選択されている。
39 LLMの系統的実験により,NCBにおけるHumanEvalスコアが近いモデル間の性能ギャップが依然として大きいことが判明した。
論文 参考訳(メタデータ) (2024-05-07T17:52:51Z) - A Controlled Experiment on the Energy Efficiency of the Source Code Generated by Code Llama [4.937787069991124]
ソフトウェア開発者の83%がコード生成にLLM(Large Language Models)を使用している。
本稿では,人手によるソースコードに関して,コードラマのエネルギー効率を評価する。
論文 参考訳(メタデータ) (2024-05-06T16:32:29Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Mercury: A Code Efficiency Benchmark for Code Large Language Models [41.51235610016959]
我々は、Large Language Models for Code (Code LLMs)の最初のコード効率ベンチマークであるMercuryを提示する。
1,889のPythonタスクで構成され、それぞれに現実の効率のベースラインとして機能する適切なソリューションが伴っている。
そこで我々は,機能的正当性とコード効率を同時に反映する,実行時毎のパススコアを計算する新たな指標Beyondを導入する。
論文 参考訳(メタデータ) (2024-02-12T17:53:22Z) - Exploring Continual Learning for Code Generation Models [80.78036093054855]
継続的学習(CL)は、コードドメインの中でまだ過小評価されていない重要な側面である。
コード生成,翻訳,要約,改良など,幅広いタスクをカバーするCodeTask-CLというベンチマークを導入する。
即時選択機構の不安定な訓練により,プロンプトプール (PP) などの有効手法が破滅的な忘れ込みに悩まされることが判明した。
論文 参考訳(メタデータ) (2023-07-05T16:58:39Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。