Fugu-MT 論文翻訳(概要): Evaluating the Energy-Efficiency of the Code Generated by LLMs

論文の概要: Evaluating the Energy-Efficiency of the Code Generated by LLMs

arxiv url: http://arxiv.org/abs/2505.20324v1
Date: Fri, 23 May 2025 18:13:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 17:05:58.171656
Title: Evaluating the Energy-Efficiency of the Code Generated by LLMs
Title（参考訳）: LLMによる符号のエネルギー効率評価
Authors: Md Arman Islam, Devi Varaprasad Jonnala, Ritika Rekhi, Pratik Pokharel, Siddharth Cilamkoti, Asif Imran, Tevfik Kosar, Bekir Turkkan,
Abstract要約: 本稿では,878のプログラミング問題に対して,20の一般的な大規模言語モデルが生成するコードのエネルギー効率について検討する。研究されたLLMのうち、DeepSeek-v3とGPT-4oは最もエネルギー効率の良いコードを生成する。動的プログラミング、バックトラック、ビット操作のような特定のアルゴリズム群では、LLM生成コードは人間の生成した標準解の最大450倍のエネルギーを消費することができる。
参考スコア（独自算出の注目度）: 2.1983110147455482
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As the quality of code generated by Large Language Models (LLMs) improves, their adoption in the software industry for automated code generation continues to grow. Researchers primarily focus on enhancing the functional correctness of the generated code while commonly overlooking its energy efficiency and environmental impact. This paper investigates the energy efficiency of the code generated by 20 popular LLMs for 878 programming problems of varying difficulty levels and diverse algorithmic categories selected from the LeetCode platform by comparing them against canonical human-written solutions. Although LLMs can produce functionally correct results in most cases, our findings show that the performance and energy efficiency of LLM-produced solutions are often far below those of human-written solutions. Among the studied LLMs, DeepSeek-v3 and GPT-4o generate the most energy-efficient code, whereas Grok-2 and Gemini-1.5-Pro are among the least energy-efficient models. On average, human-generated canonical solutions are approximately 1.17 times more energy efficient than DeepSeek-v3, 1.21 times more energy efficient than GPT-4o, and over 2 times more energy efficient than Grok-2 and Gemini-1.5-Pro. For specific algorithmic groups such as dynamic programming, backtracking, and bit manipulation, LLM-generated code can consume up to 450 times more energy than human-generated canonical solutions.
Abstract（参考訳）: LLM(Large Language Models)が生成するコードの品質が向上するにつれて、自動コード生成のためのソフトウェア産業への採用は増え続けている。研究者は主に、そのエネルギー効率と環境への影響を概して見ながら、生成されたコードの機能的正しさを向上させることに重点を置いている。本稿では,LietCodeプラットフォームから選択した難易度と多種多様なアルゴリズムカテゴリのプログラミング問題に対して,20のLLMが生成するコードのエネルギー効率を,標準的な人間による解と比較することにより検討する。 LLMは機能的に正しい結果が得られるが,本研究の結果から,LLM生成ソリューションの性能とエネルギー効率は人手によるソリューションよりもはるかに低いことが判明した。研究されたLCMのうち、DeepSeek-v3とGPT-4oは最もエネルギー効率の良いコードを生成するが、Grok-2とGemini-1.5-Proはエネルギー効率の低いモデルである。人為的正準解の平均エネルギー効率はDeepSeek-v3の約1.17倍、Grok-2やGemini-1.5-Proの約1.21倍、Grok-4oの約2倍である。動的プログラミング、バックトラック、ビット操作のような特定のアルゴリズム群では、LLM生成コードは人間の生成した標準解の最大450倍のエネルギーを消費することができる。

関連論文リスト

Energy-Aware Code Generation with LLMs: Benchmarking Small vs. Large Language Models for Sustainable AI Programming [2.588812622437082]
我々は,大規模言語モデル (LLM) に対するコード生成を明示的に訓練したオープンソースのSmall Language Models (SLM) と,効率的な人書きPythonコードの評価を行った。我々はLeetCodeから150のコーディング問題を評価し、難易度、中性度、難易度という3つの難易度に均等に分散した。 LLMは全ての難易度で最高精度を達成するが、SLMは出力が正しければエネルギー効率が良くなる。
論文参考訳（メタデータ） (2025-08-10T14:44:06Z)
On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文参考訳（メタデータ） (2025-07-22T13:40:26Z)
Leveraging LLMs to Automate Energy-Aware Refactoring of Parallel Scientific Codes [1.2178992475191555]
大規模言語モデル (LLM) は、並列的な科学的コードを生成するためにますます使われている。エネルギー効率のよい並列コードを生成する自動スクリーニングフレームワークLASSI-EEを提案する。我々は、k個の符号候補を生成する際に、期待されるエネルギー削減を定量化する新しい計量であるEnergy-reduction@kを紹介する。
論文参考訳（メタデータ） (2025-05-04T17:05:34Z)
Can We Make Code Green? Understanding Trade-Offs in LLMs vs. Human Code Optimizations [45.243401722182554]
大規模言語モデル(LLM)は、パフォーマンスとエネルギー効率の最適化を開発者が支援すると主張している。この研究は、科学と工学の応用のために学術と産業の両方で広く使われているマットラブで書かれたソフトウェアに焦点を当てている。トップ100のGitHubリポジトリで400スクリプトのエネルギ中心の最適化を分析します。
論文参考訳（メタデータ） (2025-03-26T00:27:29Z)
AI-Powered, But Power-Hungry? Energy Efficiency of LLM-Generated Code [45.77395425799378]
本稿では,Python,Java,C++の3つのプログラミング言語に対して,LLM生成コードのエネルギー効率と性能を初めて解析する。結果から,C++ コードよりも Python と Java の生成に成功していることがわかった。
論文参考訳（メタデータ） (2025-02-04T15:32:34Z)
PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。 LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文参考訳（メタデータ） (2024-11-18T06:22:38Z)
Rethinking Code Refinement: Learning to Judge Code Efficiency [60.04718679054704]
大規模言語モデル(LLM)は、コードを理解して生成する素晴らしい能力を示しています。本稿では,2つの異なる符号間の効率を判定するために訓練されたコード言語モデルに基づく新しい手法を提案する。提案手法は,複数の改良ステップで複数のプログラミング言語に対して検証し,より効率的で少ないバージョンのコードの識別を効果的に行うことができることを示した。
論文参考訳（メタデータ） (2024-10-29T06:17:37Z)
Large Language Models for Energy-Efficient Code: Emerging Results and Future Directions [2.848398051763324]
エネルギー効率向上のための符号として,大規模言語モデル (LLM) の新たな適用法を提案する。我々はプロトタイプを記述し評価し、我々のシステムでは、コンパイラの最適化だけで最大2倍のエネルギー効率を向上できる6つの小さなプログラムを探索した。
論文参考訳（メタデータ） (2024-10-11T20:35:40Z)
CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。 CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文参考訳（メタデータ） (2024-10-08T01:36:15Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Navigating the Labyrinth: Evaluating and Enhancing LLMs' Ability to Reason About Search Problems [59.72548591120689]
我々は,11種類の検索問題を含む新しいベンチマークであるSearchBenchを紹介する。もっとも先進的なLCMでさえ、これらの問題をエンドツーエンドのテキストで解決することができないことを示す。 LLMにその問題を解決するコードを生成するように指示することは助けになるが、GPT4のパフォーマンスは11.7%向上した。
論文参考訳（メタデータ） (2024-06-18T00:44:58Z)
How Efficient is LLM-Generated Code? A Rigorous & High-Standard Benchmark [39.13045037676502]
大規模言語モデル(LLM)の開発は、プログラム合成のフロンティアを著しく押し上げている。ほとんどの評価フレームワークは生成したコードの(機能的な)正しさに重点を置いています。我々は,LLMの効率的なコード生成能力を評価するための厳格で高水準なベンチマークENAMELを開発した。
論文参考訳（メタデータ） (2024-06-10T04:19:20Z)
A Controlled Experiment on the Energy Efficiency of the Source Code Generated by Code Llama [4.937787069991124]
ソフトウェア開発者の83%がコード生成にLLM(Large Language Models)を使用している。本稿では,人手によるソースコードに関して,コードラマのエネルギー効率を評価する。
論文参考訳（メタデータ） (2024-05-06T16:32:29Z)
On Evaluating the Efficiency of Source Code Generated by LLMs [31.8121544062256]
より効率的なコードは、LCM支援プログラミングで完了したプログラムやソフトウェアの性能と実行効率を向上させる。まず,HumanEval と MBPP の2つのベンチマークで LLM が生成したコードの有効性を評価する。そして,オンライン審査プラットフォームLeetCodeから,より難しい評価を行うために,一連のプログラミング問題を選択する。
論文参考訳（メタデータ） (2024-04-09T05:59:39Z)
EffiBench: Benchmarking the Efficiency of Automatically Generated Code [16.19693502619949]
EffiBenchは1,000の効率クリティカルコーディング問題のあるベンチマークである。それぞれの問題は、実行可能な人間記述の標準解とペアリングされる。我々は42の大規模言語モデルによる効率的なコード生成能力を実証的に検証した。
論文参考訳（メタデータ） (2024-02-03T05:24:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。