Fugu-MT 論文翻訳(概要): EffiBench-X: A Multi-Language Benchmark for Measuring Efficiency of LLM-Generated Code

論文の概要: EffiBench-X: A Multi-Language Benchmark for Measuring Efficiency of LLM-Generated Code

arxiv url: http://arxiv.org/abs/2505.13004v1
Date: Mon, 19 May 2025 11:43:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:11.567083
Title: EffiBench-X: A Multi-Language Benchmark for Measuring Efficiency of LLM-Generated Code
Title（参考訳）: EffiBench-X: LLM生成コードの効率測定のための多言語ベンチマーク
Authors: Yuhao Qing, Boyu Zhu, Mingzhe Du, Zhijiang Guo, Terry Yue Zhuo, Qianru Zhang, Jie M. Zhang, Heming Cui, Siu-Ming Yiu, Dong Huang, See-Kiong Ng, Luu Anh Tuan,
Abstract要約: EffiBench-X は LLM 生成コードの効率を測定するために設計された最初のマルチ言語ベンチマークである。 Python、C++、Java、JavaScript、Ruby、Golangをサポートする。競争力のあるプログラミングタスクと人間の専門的なソリューションをベースラインとして構成する。
参考スコア（独自算出の注目度）: 37.712780804235045
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing code generation benchmarks primarily evaluate functional correctness, with limited focus on code efficiency and often restricted to a single language like Python. To address this gap, we introduce EffiBench-X, the first multi-language benchmark designed to measure the efficiency of LLM-generated code. EffiBench-X supports Python, C++, Java, JavaScript, Ruby, and Golang. It comprises competitive programming tasks with human-expert solutions as efficiency baselines. Evaluating state-of-the-art LLMs on EffiBench-X reveals that while models generate functionally correct code, they consistently underperform human experts in efficiency. Even the most efficient LLM-generated solutions (Qwen3-32B) achieve only around \textbf{62\%} of human efficiency on average, with significant language-specific variations. LLMs show better efficiency in Python, Ruby, and JavaScript than in Java, C++, and Golang. For instance, DeepSeek-R1's Python code is significantly more efficient than its Java code. These results highlight the critical need for research into LLM optimization techniques to improve code efficiency across diverse languages. The dataset and evaluation infrastructure are submitted and available at https://github.com/EffiBench/EffiBench-X.git and https://huggingface.co/datasets/EffiBench/effibench-x.
Abstract（参考訳）: 既存のコード生成ベンチマークは主に機能的正確性を評価しており、コードの効率に制限があり、しばしばPythonのような単一の言語に制限される。このギャップに対処するために,LLM生成コードの効率を測定するために設計された,最初のマルチ言語ベンチマークであるEffiBench-Xを紹介する。 EffiBench-XはPython、C++、Java、JavaScript、Ruby、Golangをサポートする。競争力のあるプログラミングタスクと人間の専門的なソリューションをベースラインとして構成する。 EffiBench-X 上での最先端の LLM の評価は、モデルが機能的に正しいコードを生成する一方で、効率性において人間の専門家を一貫して過小評価していることを示している。最も効率的な LLM 生成ソリューション (Qwen3-32B) でさえ、平均的な人間の効率のおよそ \textbf{62\%} しか達成していない。 LLMは、Python、Ruby、JavaScriptにおいて、Java、C++、Golangよりも効率がよい。例えば、DeepSeek-R1のPythonコードは、Javaコードよりもはるかに効率的です。これらの結果は、様々な言語でコード効率を向上させるため、LLM最適化技術の研究が重要であることを強調している。データセットと評価インフラストラクチャはhttps://github.com/EffiBench/EffiBench-X.gitとhttps://huggingface.co/datasets/EffiBench/effibench-xで提供されている。

関連論文リスト

On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文参考訳（メタデータ） (2025-07-22T13:40:26Z)
PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。 LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文参考訳（メタデータ） (2024-11-18T06:22:38Z)
EffiCoder: Enhancing Code Generation in Large Language Models through Efficiency-Aware Fine-tuning [17.355845751737423]
大規模言語モデル(LLM)は、コード生成においてますます重要な役割を果たす。 EffiCoderを導入し、高品質なデータセット上でLLMを微調整することで、両方の面を改善する。 EffiCoderは、AI駆動のコード生成を進めるためのスケーラブルで効果的なソリューションを提供する。
論文参考訳（メタデータ） (2024-10-14T07:05:51Z)
Unraveling the Potential of Large Language Models in Code Translation: How Far Are We? [4.616570111453259]
大規模言語モデル(LLM)は様々なタスクにおいて最先端のパフォーマンスを示すが、コード翻訳には苦労する。コード翻訳タスクにおけるLLMの能力と能力を利用するための大規模な実証的研究を行う。提案手法は,(1)ソースと対象言語間の中間言語を選択する中間翻訳と,(2)自己生成並列データ上でLPMを微調整する自己学習である。
論文参考訳（メタデータ） (2024-10-13T12:20:12Z)
CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.1875460416205]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。 Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文参考訳（メタデータ） (2024-08-23T11:43:00Z)
ECCO: Can We Improve Model-Generated Code Efficiency Without Sacrificing Functional Correctness? [12.862825053595934]
ECCOは、自然言語(NL)ベースのコード生成と履歴ベースのコード編集という、2つのパラダイムを通じてプログラム効率を評価するためのベンチマークである。実行情報の追加は機能的正確性を維持するのによく役立ち、NLフィードバックは効率を向上する。
論文参考訳（メタデータ） (2024-07-19T05:47:40Z)
How Efficient is LLM-Generated Code? A Rigorous & High-Standard Benchmark [39.13045037676502]
大規模言語モデル(LLM)の開発は、プログラム合成のフロンティアを著しく押し上げている。ほとんどの評価フレームワークは生成したコードの(機能的な)正しさに重点を置いています。我々は,LLMの効率的なコード生成能力を評価するための厳格で高水準なベンチマークENAMELを開発した。
論文参考訳（メタデータ） (2024-06-10T04:19:20Z)
Python is Not Always the Best Choice: Embracing Multilingual Program of Thoughts [51.49688654641581]
本稿では,多言語からの強みと多様性を生かしたMultiPoTというタスクとモデル非依存のアプローチを提案する。実験の結果、Python Self-Consistencyを著しく上回ることがわかった。特にMultiPoTはChatGPT(gpt-3.5-turbo-0701)で平均4.6%以上の改善を実現している。
論文参考訳（メタデータ） (2024-02-16T13:48:06Z)
Mercury: A Code Efficiency Benchmark for Code Large Language Models [41.51235610016959]
我々は、Large Language Models for Code (Code LLMs)の最初のコード効率ベンチマークであるMercuryを提示する。 1,889のPythonタスクで構成され、それぞれに現実の効率のベースラインとして機能する適切なソリューションが伴っている。そこで我々は,機能的正当性とコード効率を同時に反映する,実行時毎のパススコアを計算する新たな指標Beyondを導入する。
論文参考訳（メタデータ） (2024-02-12T17:53:22Z)
LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。 LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文参考訳（メタデータ） (2023-02-16T18:23:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。