論文の概要: How Efficient is LLM-Generated Code? A Rigorous & High-Standard Benchmark
- arxiv url: http://arxiv.org/abs/2406.06647v2
- Date: Sun, 16 Jun 2024 19:34:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 02:00:43.565758
- Title: How Efficient is LLM-Generated Code? A Rigorous & High-Standard Benchmark
- Title(参考訳): LLM生成コードはどの程度効率的か?厳格で高水準なベンチマーク
- Authors: Ruizhong Qiu, Weiliang Will Zeng, Hanghang Tong, James Ezick, Christopher Lott,
- Abstract要約: 大規模言語モデル(LLM)の開発は、プログラム合成のフロンティアを著しく押し上げている。
ほとんどの評価フレームワークは生成したコードの(機能的な)正しさに重点を置いています。
我々は,LLMの効率的なコード生成能力を評価するための厳格で高水準なベンチマークENAMELを開発した。
- 参考スコア(独自算出の注目度): 39.13045037676502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of large language models (LLMs) has significantly pushed the frontiers of program synthesis. Advancement of LLM-based program synthesis calls for a thorough evaluation of LLM-generated code. Most evaluation frameworks focus on the (functional) correctness of generated code; efficiency, as an important measure of code quality, has been overlooked in existing evaluations. In this work, we develop ENAMEL (EfficeNcy AutoMatic EvaLuator), a rigorous and high-standard benchmark for evaluating the capability of LLMs in generating efficient code. Firstly, we propose a new efficiency metric called eff@k, which generalizes the pass@k metric from correctness to efficiency and appropriately handles right-censored execution time. Furthermore, we derive an unbiased and variance-reduced estimator of eff@k via Rao--Blackwellization; we also provide a numerically stable implementation for the new estimator. Secondly, to set a high-standard for efficiency evaluation, we employ a human expert to design best algorithms and implementations as our reference solutions of efficiency, many of which are much more efficient than existing canonical solutions in HumanEval and HumanEval+. Moreover, to ensure a rigorous evaluation, we employ a human expert to curate strong test case generators to filter out wrong code and differentiate suboptimal algorithms. An extensive study across 30 popular LLMs using our benchmark ENAMEL shows that LLMs still fall short of generating expert-level efficient code. Using two subsets of our problem set, we demonstrate that such deficiency is because current LLMs struggle in designing advanced algorithms and are barely aware of implementation optimization. Our benchmark is publicly available at https://github.com/q-rz/enamel .
- Abstract(参考訳): 大規模言語モデル(LLM)の出現は、プログラム合成のフロンティアを著しく押し上げている。
LLMに基づくプログラム合成の進歩は、LLM生成コードの徹底的な評価を要求する。
ほとんどの評価フレームワークは生成したコードの(機能的な)正しさに重点を置いています。
本研究では,LLMの効率性を評価するための厳密で高水準なベンチマークであるENAMEL (EfficeNcy AutoMatic EvaLuator) を開発した。
まず、eff@kと呼ばれる新しい効率指標を提案する。これは、pass@kメトリックを正確性から効率性に一般化し、正しく検閲された実行時間を適切に処理する。
さらに,Rao-Blackwellization による eff@k の非バイアスおよび分散還元推定器を導出し,新しい推定器の数値的に安定な実装も提供する。
第2に、効率評価のための高標準を設定するために、人間の専門家を用いて、効率の基準解として最適なアルゴリズムと実装を設計し、その多くがHumanEvalやHumanEval+の既存の標準解よりもはるかに効率的である。
さらに、厳密な評価を確保するために、人間の専門家を用いて、強力なテストケースジェネレータをキュレートし、間違ったコードをフィルタリングし、準最適アルゴリズムを区別する。
我々のベンチマークENAMELを用いた30の人気のあるLLMの広範な研究は、LLMがまだ専門家レベルの効率的なコードを生成するに足りていないことを示している。
我々の問題集合の2つの部分集合を用いて、そのような不足は、現在のLLMが高度なアルゴリズムの設計に苦慮し、実装の最適化をほとんど意識していないためであることを示す。
私たちのベンチマークはhttps://github.com/q-rz/enamelで公開されています。
関連論文リスト
- ECCO: Can We Improve Model-Generated Code Efficiency Without Sacrificing Functional Correctness? [12.862825053595934]
ECCOは、自然言語(NL)ベースのコード生成と履歴ベースのコード編集という、2つのパラダイムを通じてプログラム効率を評価するためのベンチマークである。
実行情報の追加は機能的正確性を維持するのによく役立ち、NLフィードバックは効率を向上する。
論文 参考訳(メタデータ) (2024-07-19T05:47:40Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Iterative or Innovative? A Problem-Oriented Perspective for Code Optimization [81.88668100203913]
大規模言語モデル(LLM)は、幅広いプログラミングタスクを解く上で強力な能力を示している。
本稿では,パフォーマンス向上に着目したコード最適化について検討する。
論文 参考訳(メタデータ) (2024-06-17T16:10:10Z) - On Evaluating the Efficiency of Source Code Generated by LLMs [31.8121544062256]
より効率的なコードは、LCM支援プログラミングで完了したプログラムやソフトウェアの性能と実行効率を向上させる。
まず,HumanEval と MBPP の2つのベンチマークで LLM が生成したコードの有効性を評価する。
そして,オンライン審査プラットフォームLeetCodeから,より難しい評価を行うために,一連のプログラミング問題を選択する。
論文 参考訳(メタデータ) (2024-04-09T05:59:39Z) - The RealHumanEval: Evaluating Large Language Models' Abilities to Support Programmers [44.28269395385471]
大規模言語モデル(LLM)を用いたコーディングにおいて,既存のベンチマークのゲインがプログラマの生産性向上に寄与するかどうかを検討する。
本稿では,プログラマを支援するためのLLMの能力を測定するためのWebインターフェースであるRealHumanEvalについて,オートコンプリートあるいはチャットサポートを通じて紹介する。
プログラマの好みは実際のパフォーマンスと相関せず、より優れた人間中心のプロキシ信号の必要性を動機付けている。
論文 参考訳(メタデータ) (2024-04-03T15:20:57Z) - Mercury: A Code Efficiency Benchmark for Code Large Language Models [41.51235610016959]
我々は、Large Language Models for Code (Code LLMs)の最初のコード効率ベンチマークであるMercuryを提示する。
1,889のPythonタスクで構成され、それぞれに現実の効率のベースラインとして機能する適切なソリューションが伴っている。
そこで我々は,機能的正当性とコード効率を同時に反映する,実行時毎のパススコアを計算する新たな指標Beyondを導入する。
論文 参考訳(メタデータ) (2024-02-12T17:53:22Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of
Large Language Models for Code Generation [20.45045253933097]
LLM合成コードの機能的正しさを厳格に評価するコード合成評価フレームワークであるEvalPlusを提案する。
EvalPlusは、自動テスト入力ジェネレータによって新たに生成された大量のテストケースで、所定の評価データセットを拡張する。
我々は、HumanEval+が、これまで検出されていなかった大量の間違ったコードをキャッチできることを示します。
論文 参考訳(メタデータ) (2023-05-02T05:46:48Z) - Learning to Optimize: A Primer and A Benchmark [94.29436694770953]
最適化への学習(L2O)は、機械学習を活用して最適化方法を開発する新しいアプローチです。
この記事では、継続的最適化のためのL2Oの総合的な調査とベンチマークを行う。
論文 参考訳(メタデータ) (2021-03-23T20:46:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。