論文の概要: EffiBench-X: A Multi-Language Benchmark for Measuring Efficiency of LLM-Generated Code
- arxiv url: http://arxiv.org/abs/2505.13004v1
- Date: Mon, 19 May 2025 11:43:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.567083
- Title: EffiBench-X: A Multi-Language Benchmark for Measuring Efficiency of LLM-Generated Code
- Title(参考訳): EffiBench-X: LLM生成コードの効率測定のための多言語ベンチマーク
- Authors: Yuhao Qing, Boyu Zhu, Mingzhe Du, Zhijiang Guo, Terry Yue Zhuo, Qianru Zhang, Jie M. Zhang, Heming Cui, Siu-Ming Yiu, Dong Huang, See-Kiong Ng, Luu Anh Tuan,
- Abstract要約: EffiBench-X は LLM 生成コードの効率を測定するために設計された最初のマルチ言語ベンチマークである。
Python、C++、Java、JavaScript、Ruby、Golangをサポートする。
競争力のあるプログラミングタスクと人間の専門的なソリューションをベースラインとして構成する。
- 参考スコア(独自算出の注目度): 37.712780804235045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing code generation benchmarks primarily evaluate functional correctness, with limited focus on code efficiency and often restricted to a single language like Python. To address this gap, we introduce EffiBench-X, the first multi-language benchmark designed to measure the efficiency of LLM-generated code. EffiBench-X supports Python, C++, Java, JavaScript, Ruby, and Golang. It comprises competitive programming tasks with human-expert solutions as efficiency baselines. Evaluating state-of-the-art LLMs on EffiBench-X reveals that while models generate functionally correct code, they consistently underperform human experts in efficiency. Even the most efficient LLM-generated solutions (Qwen3-32B) achieve only around \textbf{62\%} of human efficiency on average, with significant language-specific variations. LLMs show better efficiency in Python, Ruby, and JavaScript than in Java, C++, and Golang. For instance, DeepSeek-R1's Python code is significantly more efficient than its Java code. These results highlight the critical need for research into LLM optimization techniques to improve code efficiency across diverse languages. The dataset and evaluation infrastructure are submitted and available at https://github.com/EffiBench/EffiBench-X.git and https://huggingface.co/datasets/EffiBench/effibench-x.
- Abstract(参考訳): 既存のコード生成ベンチマークは主に機能的正確性を評価しており、コードの効率に制限があり、しばしばPythonのような単一の言語に制限される。
このギャップに対処するために,LLM生成コードの効率を測定するために設計された,最初のマルチ言語ベンチマークであるEffiBench-Xを紹介する。
EffiBench-XはPython、C++、Java、JavaScript、Ruby、Golangをサポートする。
競争力のあるプログラミングタスクと人間の専門的なソリューションをベースラインとして構成する。
EffiBench-X 上での最先端の LLM の評価は、モデルが機能的に正しいコードを生成する一方で、効率性において人間の専門家を一貫して過小評価していることを示している。
最も効率的な LLM 生成ソリューション (Qwen3-32B) でさえ、平均的な人間の効率のおよそ \textbf{62\%} しか達成していない。
LLMは、Python、Ruby、JavaScriptにおいて、Java、C++、Golangよりも効率がよい。
例えば、DeepSeek-R1のPythonコードは、Javaコードよりもはるかに効率的です。
これらの結果は、様々な言語でコード効率を向上させるため、LLM最適化技術の研究が重要であることを強調している。
データセットと評価インフラストラクチャはhttps://github.com/EffiBench/EffiBench-X.gitとhttps://huggingface.co/datasets/EffiBench/effibench-xで提供されている。
関連論文リスト
- CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.1875460416205]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - ECCO: Can We Improve Model-Generated Code Efficiency Without Sacrificing Functional Correctness? [12.862825053595934]
ECCOは、自然言語(NL)ベースのコード生成と履歴ベースのコード編集という、2つのパラダイムを通じてプログラム効率を評価するためのベンチマークである。
実行情報の追加は機能的正確性を維持するのによく役立ち、NLフィードバックは効率を向上する。
論文 参考訳(メタデータ) (2024-07-19T05:47:40Z) - How Efficient is LLM-Generated Code? A Rigorous & High-Standard Benchmark [39.13045037676502]
大規模言語モデル(LLM)の開発は、プログラム合成のフロンティアを著しく押し上げている。
ほとんどの評価フレームワークは生成したコードの(機能的な)正しさに重点を置いています。
我々は,LLMの効率的なコード生成能力を評価するための厳格で高水準なベンチマークENAMELを開発した。
論文 参考訳(メタデータ) (2024-06-10T04:19:20Z) - Python is Not Always the Best Choice: Embracing Multilingual Program of Thoughts [51.49688654641581]
本稿では,多言語からの強みと多様性を生かしたMultiPoTというタスクとモデル非依存のアプローチを提案する。
実験の結果、Python Self-Consistencyを著しく上回ることがわかった。
特にMultiPoTはChatGPT(gpt-3.5-turbo-0701)で平均4.6%以上の改善を実現している。
論文 参考訳(メタデータ) (2024-02-16T13:48:06Z) - Mercury: A Code Efficiency Benchmark for Code Large Language Models [41.51235610016959]
我々は、Large Language Models for Code (Code LLMs)の最初のコード効率ベンチマークであるMercuryを提示する。
1,889のPythonタスクで構成され、それぞれに現実の効率のベースラインとして機能する適切なソリューションが伴っている。
そこで我々は,機能的正当性とコード効率を同時に反映する,実行時毎のパススコアを計算する新たな指標Beyondを導入する。
論文 参考訳(メタデータ) (2024-02-12T17:53:22Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。