論文の概要: Energy-Aware Code Generation with LLMs: Benchmarking Small vs. Large Language Models for Sustainable AI Programming
- arxiv url: http://arxiv.org/abs/2508.08332v1
- Date: Sun, 10 Aug 2025 14:44:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.177904
- Title: Energy-Aware Code Generation with LLMs: Benchmarking Small vs. Large Language Models for Sustainable AI Programming
- Title(参考訳): LLMによる省エネコード生成 - 持続可能なAIプログラミングのための小規模対大規模言語モデルのベンチマーク
- Authors: Humza Ashraf, Syed Muhammad Danish, Aris Leivadeas, Yazan Otoum, Zeeshan Sattar,
- Abstract要約: 我々は,大規模言語モデル (LLM) に対するコード生成を明示的に訓練したオープンソースのSmall Language Models (SLM) と,効率的な人書きPythonコードの評価を行った。
我々はLeetCodeから150のコーディング問題を評価し、難易度、中性度、難易度という3つの難易度に均等に分散した。
LLMは全ての難易度で最高精度を達成するが、SLMは出力が正しければエネルギー効率が良くなる。
- 参考スコア(独自算出の注目度): 2.588812622437082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are widely used for code generation. However, commercial models like ChatGPT require significant computing power, which leads to high energy use and carbon emissions. This has raised concerns about their environmental impact. In this study, we evaluate open-source Small Language Models (SLMs) trained explicitly for code generation and compare their performance and energy efficiency against large LLMs and efficient human-written Python code. The goal is to investigate whether SLMs can match the performance of LLMs on certain types of programming problems while producing more energy-efficient code. We evaluate 150 coding problems from LeetCode, evenly distributed across three difficulty levels: easy, medium, and hard. Our comparison includes three small open-source models, StableCode-3B, StarCoderBase-3B, and Qwen2.5-Coder-3B-Instruct, and two large commercial models, GPT-4.0 and DeepSeek-Reasoner. The generated code is evaluated using four key metrics: run-time, memory usage, energy consumption, and correctness. We use human-written solutions as a baseline to assess the quality and efficiency of the model-generated code. Results indicate that LLMs achieve the highest correctness across all difficulty levels, but SLMs are often more energy-efficient when their outputs are correct. In over 52% of the evaluated problems, SLMs consumed the same or less energy than LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)はコード生成に広く使われている。
しかし、ChatGPTのような商用モデルは、高いエネルギー消費と二酸化炭素排出量をもたらす大きな計算能力を必要とする。
これにより、環境への影響が懸念されている。
本研究では、コード生成のために明示的に訓練されたオープンソースのSmall Language Models(SLM)を評価し、その性能とエネルギー効率を、大規模なLLMと効率的な人書きPythonコードと比較する。
目的は、よりエネルギー効率のよいコードを生成しながら、特定のプログラミング問題に対して、SLMがLLMの性能にマッチできるかどうかを検討することである。
我々はLeetCodeから150のコーディング問題を評価し、難易度、中性度、難易度という3つの難易度に均等に分散した。
我々の比較には、StableCode-3B、StarCoderBase-3B、Qwen2.5-Coder-3B-Instructの3つの小さなオープンソースモデルと、GPT-4.0とDeepSeek-Reasonerの2つの大きな商用モデルが含まれている。
生成されたコードは、実行時間、メモリ使用量、エネルギー消費、正確さの4つの主要な指標を使用して評価される。
モデル生成したコードの品質と効率を評価するため、ベースラインとして人手によるソリューションを使用します。
その結果,LSMはすべての難易度で高い正当性を達成するが,SLMは出力が正しければエネルギー効率が高いことが示唆された。
評価された問題の52%以上において、SLMはLLMと同じか少ないエネルギーを消費した。
関連論文リスト
- On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。
コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文 参考訳(メタデータ) (2025-07-22T13:40:26Z) - Evaluating the Energy-Efficiency of the Code Generated by LLMs [2.1983110147455482]
本稿では,878のプログラミング問題に対して,20の一般的な大規模言語モデルが生成するコードのエネルギー効率について検討する。
研究されたLLMのうち、DeepSeek-v3とGPT-4oは最もエネルギー効率の良いコードを生成する。
動的プログラミング、バックトラック、ビット操作のような特定のアルゴリズム群では、LLM生成コードは人間の生成した標準解の最大450倍のエネルギーを消費することができる。
論文 参考訳(メタデータ) (2025-05-23T18:13:27Z) - Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。
LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。
LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文 参考訳(メタデータ) (2025-03-10T09:26:08Z) - AI-Powered, But Power-Hungry? Energy Efficiency of LLM-Generated Code [45.77395425799378]
本稿では,Python,Java,C++の3つのプログラミング言語に対して,LLM生成コードのエネルギー効率と性能を初めて解析する。
結果から,C++ コードよりも Python と Java の生成に成功していることがわかった。
論文 参考訳(メタデータ) (2025-02-04T15:32:34Z) - GREEN-CODE: Learning to Optimize Energy Efficiency in LLM-based Code Generation [1.5749416770494706]
本研究では,Large Language Models (LLM) におけるエネルギーを考慮したコード生成フレームワークを提案する。
我々は、正確性、レイテンシ、エネルギー消費のトレードオフのバランスをとることを学ぶ強化学習エージェント(RL)を訓練する。
その結果,コード生成作業における平均23~50パーセントのエネルギー消費を,精度に悪影響を及ぼすことなく削減できることが示唆された。
論文 参考訳(メタデータ) (2025-01-19T10:44:03Z) - PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。
LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文 参考訳(メタデータ) (2024-11-18T06:22:38Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - A Controlled Experiment on the Energy Efficiency of the Source Code Generated by Code Llama [4.937787069991124]
ソフトウェア開発者の83%がコード生成にLLM(Large Language Models)を使用している。
本稿では,人手によるソースコードに関して,コードラマのエネルギー効率を評価する。
論文 参考訳(メタデータ) (2024-05-06T16:32:29Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。