Fugu-MT 論文翻訳(概要): EffiBench: Benchmarking the Efficiency of Automatically Generated Code

論文の概要: EffiBench: Benchmarking the Efficiency of Automatically Generated Code

arxiv url: http://arxiv.org/abs/2402.02037v5
Date: Sun, 06 Oct 2024 14:30:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 07:47:08.538287
Title: EffiBench: Benchmarking the Efficiency of Automatically Generated Code
Title（参考訳）: EffiBench: 自動生成コードの効率をベンチマークする
Authors: Dong Huang, Yuhao Qing, Weiyi Shang, Heming Cui, Jie M. Zhang,
Abstract要約: EffiBenchは1,000の効率クリティカルコーディング問題のあるベンチマークである。それぞれの問題は、実行可能な人間記述の標準解とペアリングされる。我々は42の大規模言語モデルによる効率的なコード生成能力を実証的に検証した。
参考スコア（独自算出の注目度）: 16.19693502619949
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Code generation models have increasingly become integral to aiding software development. Although current research has thoroughly examined the correctness of the code produced by code generation models, a vital aspect that plays a pivotal role in green computing and sustainability efforts has often been neglected. This paper presents EffiBench, a benchmark with 1,000 efficiency-critical coding problems to assess the efficiency of code generated by code generation models. EffiBench contains a diverse set of LeetCode coding problems. Each problem is paired with an executable human-written canonical solution, which obtains the SOTA efficiency on the LeetCode solution leaderboard. With EffiBench, we empirically examine the ability of 42 large language models (35 open-source and 7 closed-source) to generate efficient code. Our evaluation results demonstrate that the efficiency of the code generated by LLMs is generally worse than the efficiency of human-written canonical solutions. For example, GPT-4 generated code has an average \textbf{3.12} times execution time that of the human-written canonical solutions. In the most extreme cases, the execution time and total memory usage of GPT-4 generated code are \textbf{13.89} and \textbf{43.92} times that of the canonical solutions. The source code of EffiBench is released on https://github.com/huangd1999/EffiBench. We also provide the LeaderBoard at https://huggingface.co/spaces/EffiBench/effibench-leaderboard.
Abstract（参考訳）: コード生成モデルは、ソフトウェア開発を支援するためにますます不可欠なものになっています。現在の研究では、コード生成モデルが生成するコードの正しさを徹底的に調査しているが、グリーンコンピューティングと持続可能性の取り組みにおいて重要な役割を担う重要な側面は無視されていることが多い。本稿では,コード生成モデルにより生成されたコードの効率を評価するために,1000の効率クリティカルコーディング問題を持つベンチマークであるEffiBenchを提案する。 EffiBenchにはさまざまなLeetCodeコーディング問題が含まれている。各問題は実行可能な人間記述の標準ソリューションと組み合わせられ、LeetCodeソリューションのリーダーボード上でSOTA効率を得る。 EffiBenchでは42の大規模言語モデル(35のオープンソースと7のクローズソース)の効率的なコード生成能力を実証的に検証した。評価の結果,LLMが生成するコードの効率は,人間の記述した標準解の効率よりも一般的に悪いことがわかった。例えば、GPT-4 の生成したコードは、人間の記述した標準解の実行時間の平均 \textbf{3.12} を持つ。最も極端な場合、GPT-4生成コードの実行時間と総メモリ使用量は、標準解の1倍の \textbf{13.89} と \textbf{43.92} である。 EffiBenchのソースコードはhttps://github.com/huangd 1999/EffiBenchで公開されている。 https://huggingface.co/spaces/EffiBench/effibench- Leaderboard.comでLeaderBoardを提供しています。

関連論文リスト

Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning [57.09163579304332]
機械学習論文を機能コードリポジトリに変換するフレームワークであるPaperCoderを紹介した。 PaperCoderは3つの段階で動作する。計画、図によるシステムアーキテクチャの設計、ファイル依存の特定、構成ファイルの生成である。次に、モデルベースおよび人的評価の両方に基づいて、機械学習論文からコード実装を生成するPaperCoderを評価する。
論文参考訳（メタデータ） (2025-04-24T01:57:01Z)
COFFE: A Code Efficiency Benchmark for Code Generation [20.79578698298569]
LLM生成したコードソリューションの時間効率を評価するためのコード生成ベンチマークであるCOFFEを提案する。 COFFEには関数レベルとファイルレベルのコード生成にそれぞれ398と358の問題がある。時間評価指標として,CPU命令数に基づくefficienct@kを提案する。
論文参考訳（メタデータ） (2025-02-05T02:08:51Z)
PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。 LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文参考訳（メタデータ） (2024-11-18T06:22:38Z)
Effi-Code: Unleashing Code Efficiency in Language Models [17.355845751737423]
Effi-Codeは、大規模言語モデルにおけるコード生成を強化するアプローチである。 Effi-Codeは、AIシステムのコード生成を改善するためのスケーラブルで汎用的なアプローチを提供する。
論文参考訳（メタデータ） (2024-10-14T07:05:51Z)
CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。 CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文参考訳（メタデータ） (2024-10-08T01:36:15Z)
Let the Code LLM Edit Itself When You Edit the Code [50.46536185784169]
underlinetextbfPositional textbfIntegrity textbfEncoding (PIE) PIEは、標準的な完全再計算手法に比べて計算オーバーヘッドを85%以上削減する。その結果、PIEは計算オーバーヘッドを標準の完全再計算手法に比べて85%以上削減することを示した。
論文参考訳（メタデータ） (2024-07-03T14:34:03Z)
Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文参考訳（メタデータ） (2024-05-24T04:35:13Z)
EffiLearner: Enhancing Efficiency of Generated Code via Self-Optimization [16.238980494717303]
大規模言語モデル(LLM)は、コード生成の著しい進歩を示しているが、生成されたコードは、しばしば非効率に悩まされる。実行オーバーヘッドプロファイルを利用した自己最適化フレームワークである textbfEffiLearner を提案する。 EffiLearnerはまずLLMを使ってコードを生成し、その後ローカルに実行し、実行時間とメモリ使用率プロファイルをキャプチャする。
論文参考訳（メタデータ） (2024-05-24T03:48:15Z)
NaturalCodeBench: Examining Coding Performance Mismatch on HumanEval and Natural User Prompts [31.783388267874738]
NaturalCodeBench (NCB) は、実際のコーディングタスクにおける複雑さと様々なシナリオを反映した、挑戦的なコードベンチマークである。 NCBは、PythonとJavaの402の高品質な問題で構成されており、オンラインコーディングサービスからの自然なユーザクエリから慎重に選択されている。 39 LLMの系統的実験により,NCBにおけるHumanEvalスコアが近いモデル間の性能ギャップが依然として大きいことが判明した。
論文参考訳（メタデータ） (2024-05-07T17:52:51Z)
A Controlled Experiment on the Energy Efficiency of the Source Code Generated by Code Llama [4.937787069991124]
ソフトウェア開発者の83%がコード生成にLLM(Large Language Models)を使用している。本稿では,人手によるソースコードに関して,コードラマのエネルギー効率を評価する。
論文参考訳（メタデータ） (2024-05-06T16:32:29Z)
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。 InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文参考訳（メタデータ） (2024-03-11T02:06:30Z)
Mercury: A Code Efficiency Benchmark for Code Large Language Models [41.51235610016959]
我々は、Large Language Models for Code (Code LLMs)の最初のコード効率ベンチマークであるMercuryを提示する。 1,889のPythonタスクで構成され、それぞれに現実の効率のベースラインとして機能する適切なソリューションが伴っている。そこで我々は,機能的正当性とコード効率を同時に反映する,実行時毎のパススコアを計算する新たな指標Beyondを導入する。
論文参考訳（メタデータ） (2024-02-12T17:53:22Z)
Exploring Continual Learning for Code Generation Models [80.78036093054855]
継続的学習(CL)は、コードドメインの中でまだ過小評価されていない重要な側面である。コード生成,翻訳,要約,改良など,幅広いタスクをカバーするCodeTask-CLというベンチマークを導入する。即時選択機構の不安定な訓練により,プロンプトプール (PP) などの有効手法が破滅的な忘れ込みに悩まされることが判明した。
論文参考訳（メタデータ） (2023-07-05T16:58:39Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。