Fugu-MT 論文翻訳(概要): EffiBench: Benchmarking the Efficiency of Automatically Generated Code

論文の概要: EffiBench: Benchmarking the Efficiency of Automatically Generated Code

arxiv url: http://arxiv.org/abs/2402.02037v2
Date: Thu, 15 Feb 2024 15:57:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-16 18:40:28.577555
Title: EffiBench: Benchmarking the Efficiency of Automatically Generated Code
Title（参考訳）: EffiBench: 自動生成コードの効率をベンチマークする
Authors: Dong Huang, Jie M.Zhang, Yuhao Qing, Heming Cui
Abstract要約: GPT-4-turboは最も効率的なコードを生成し、Palm-2-chat-bison、Claude-instant-1、Gemini-pro、GPT-4、GPT-3.5を著しく上回っている。 GPT-4-turbo生成コードの平均実行時間は、標準解の1.69倍と45.49倍である。
参考スコア（独自算出の注目度）: 13.85357787564053
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Code generation models have increasingly become integral to aiding software development, offering assistance in tasks such as code completion, debugging, and code translation. Although current research has thoroughly examined the correctness of code produced by code generation models, a vital aspect, i.e., the efficiency of the generated code, has often been neglected. This paper presents EffiBench, a benchmark with 1,000 efficiency-critical coding problems for assessing the efficiency of code generated by code generation models. EffiBench contains a diverse set of LeetCode coding problems. Each problem is paired with an executable human-written canonical solution. With EffiBench, we empirically examine the capability of 21 Large Language Models (13 open-sourced and 8 closed-sourced) in generating efficient code. The results demonstrate that GPT-4-turbo generates the most efficient code, significantly outperforming Palm-2-chat-bison, Claude-instant-1, Gemini-pro, GPT-4, and GPT-3.5. Nevertheless, its code efficiency is still worse than the efficiency of human-written canonical solutions. In particular, the average and worst execution time of GPT-4-turbo generated code is 1.69 and 45.49 times that of the canonical solutions.
Abstract（参考訳）: コード生成モデルは、コード補完、デバッギング、コード翻訳といったタスクを支援することで、ソフトウェア開発を支援するためにますます不可欠なものになっています。現在の研究では、コード生成モデルによって生成されるコードの正確性について徹底的に検討されているが、重要な側面、すなわち生成されたコードの効率性はしばしば無視されている。本稿では,コード生成モデルが生成するコード効率を評価するために,1000の効率クリティカルなコーディング問題を持つベンチマークeffibenchを提案する。 EffiBenchにはさまざまなLeetCodeコーディング問題が含まれている。各問題は実行可能な人間による正準解とペアリングされる。 EffiBenchでは、効率的なコードを生成する上で、21の大規模言語モデル(13のオープンソースと8のクローズドソース)の能力を実証的に検証する。その結果, GPT-4-turboはPalm-2-chat-bison, Claude-instant-1, Gemini-pro, GPT-4, GPT-3.5を著しく上回った。それでも、そのコード効率は、人間の書いた正準ソリューションの効率よりも悪い。特に、GPT-4-turbo生成コードの平均実行時間は、標準解の1.69倍と45.49倍である。

関連論文リスト

Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning [57.09163579304332]
機械学習論文を機能コードリポジトリに変換するフレームワークであるPaperCoderを紹介した。 PaperCoderは3つの段階で動作する。計画、図によるシステムアーキテクチャの設計、ファイル依存の特定、構成ファイルの生成である。次に、モデルベースおよび人的評価の両方に基づいて、機械学習論文からコード実装を生成するPaperCoderを評価する。
論文参考訳（メタデータ） (2025-04-24T01:57:01Z)
COFFE: A Code Efficiency Benchmark for Code Generation [20.79578698298569]
LLM生成したコードソリューションの時間効率を評価するためのコード生成ベンチマークであるCOFFEを提案する。 COFFEには関数レベルとファイルレベルのコード生成にそれぞれ398と358の問題がある。時間評価指標として,CPU命令数に基づくefficienct@kを提案する。
論文参考訳（メタデータ） (2025-02-05T02:08:51Z)
PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。 LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文参考訳（メタデータ） (2024-11-18T06:22:38Z)
Effi-Code: Unleashing Code Efficiency in Language Models [17.355845751737423]
Effi-Codeは、大規模言語モデルにおけるコード生成を強化するアプローチである。 Effi-Codeは、AIシステムのコード生成を改善するためのスケーラブルで汎用的なアプローチを提供する。
論文参考訳（メタデータ） (2024-10-14T07:05:51Z)
CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。 CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文参考訳（メタデータ） (2024-10-08T01:36:15Z)
Let the Code LLM Edit Itself When You Edit the Code [50.46536185784169]
underlinetextbfPositional textbfIntegrity textbfEncoding (PIE) PIEは、標準的な完全再計算手法に比べて計算オーバーヘッドを85%以上削減する。その結果、PIEは計算オーバーヘッドを標準の完全再計算手法に比べて85%以上削減することを示した。
論文参考訳（メタデータ） (2024-07-03T14:34:03Z)
Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文参考訳（メタデータ） (2024-05-24T04:35:13Z)
EffiLearner: Enhancing Efficiency of Generated Code via Self-Optimization [16.238980494717303]
大規模言語モデル(LLM)は、コード生成の著しい進歩を示しているが、生成されたコードは、しばしば非効率に悩まされる。実行オーバーヘッドプロファイルを利用した自己最適化フレームワークである textbfEffiLearner を提案する。 EffiLearnerはまずLLMを使ってコードを生成し、その後ローカルに実行し、実行時間とメモリ使用率プロファイルをキャプチャする。
論文参考訳（メタデータ） (2024-05-24T03:48:15Z)
NaturalCodeBench: Examining Coding Performance Mismatch on HumanEval and Natural User Prompts [31.783388267874738]
NaturalCodeBench (NCB) は、実際のコーディングタスクにおける複雑さと様々なシナリオを反映した、挑戦的なコードベンチマークである。 NCBは、PythonとJavaの402の高品質な問題で構成されており、オンラインコーディングサービスからの自然なユーザクエリから慎重に選択されている。 39 LLMの系統的実験により,NCBにおけるHumanEvalスコアが近いモデル間の性能ギャップが依然として大きいことが判明した。
論文参考訳（メタデータ） (2024-05-07T17:52:51Z)
A Controlled Experiment on the Energy Efficiency of the Source Code Generated by Code Llama [4.937787069991124]
ソフトウェア開発者の83%がコード生成にLLM(Large Language Models)を使用している。本稿では,人手によるソースコードに関して,コードラマのエネルギー効率を評価する。
論文参考訳（メタデータ） (2024-05-06T16:32:29Z)
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。 InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文参考訳（メタデータ） (2024-03-11T02:06:30Z)
Mercury: A Code Efficiency Benchmark for Code Large Language Models [41.51235610016959]
我々は、Large Language Models for Code (Code LLMs)の最初のコード効率ベンチマークであるMercuryを提示する。 1,889のPythonタスクで構成され、それぞれに現実の効率のベースラインとして機能する適切なソリューションが伴っている。そこで我々は,機能的正当性とコード効率を同時に反映する,実行時毎のパススコアを計算する新たな指標Beyondを導入する。
論文参考訳（メタデータ） (2024-02-12T17:53:22Z)
Exploring Continual Learning for Code Generation Models [80.78036093054855]
継続的学習(CL)は、コードドメインの中でまだ過小評価されていない重要な側面である。コード生成,翻訳,要約,改良など,幅広いタスクをカバーするCodeTask-CLというベンチマークを導入する。即時選択機構の不安定な訓練により,プロンプトプール (PP) などの有効手法が破滅的な忘れ込みに悩まされることが判明した。
論文参考訳（メタデータ） (2023-07-05T16:58:39Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。