論文の概要: Smart but Costly? Benchmarking LLMs on Functional Accuracy and Energy Efficiency
- arxiv url: http://arxiv.org/abs/2511.07698v1
- Date: Wed, 12 Nov 2025 01:12:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.43487
- Title: Smart but Costly? Benchmarking LLMs on Functional Accuracy and Energy Efficiency
- Title(参考訳): スマートだがコストは? 機能的精度とエネルギー効率に関するLCMのベンチマーク
- Authors: Mohammadjavad Mehditabar, Saurabhsingh Rajput, Antonio Mastropaolo, Tushar Sharma,
- Abstract要約: 我々は、エネルギー効率と機能的正当性の統一的なスケールでコード言語モデルのベンチマークを行うためのフレームワークBRACEを提案する。
同心性漸進的レーティングサークル(CIRC)と予測レーティング(OTER)の2つの評価手法を提案する。
我々の分析では、文法ベースで構文的に正しい出力を生成するように強制されないため、コード要約タスクにおいて、一般的にモデルの性能が向上することを明らかにした。
- 参考スコア(独自算出の注目度): 5.771786260272727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of AI technologies and their accelerated adoption in software development necessitates a systematic evaluation of their environmental impact alongside functional correctness. While prior studies have examined sustainability in large language models, existing approaches lack systematic frameworks for evaluating accuracy-energy trade-offs in Code Language Models (CLMs). In this paper, we present a framework, BRACE, to benchmark CLMs on a unified scale of energy efficiency and functional correctness (referred to as accuracy). We benchmark 22 state-of-the-art models on code generation and summarization tasks, proposing two rating methods: Concentric Incremental Rating Circles (CIRC) and Observation to Expectation Rating (OTER). CIRC provides deterministic Euclidean-based rankings with static trade-offs that are robust to outliers, and OTER offers trend-aware evaluation with dynamic trade-offs that capture the complex correlation between energy and accuracy, each offering a distinct perspective and addressing the problem in a unique way. These rating methods enable us to rate LLMs on a 1-5 scale reflecting their combined capabilities in terms of energy efficiency and functional correctness. Our analysis reveals models generally perform better in the code summarization tasks as they are not enforced to generate a grammar-based and syntactically correct output. Also, we find that models' size does not have a significant impact on their ratings, indicating that if models utilize their parameters efficiently, they can be ranked higher on these scales. The proposed BRACE framework empowers practitioners to make evidence-based model selections that balance sustainability with task requirements, guiding rating choice -- CIRC for deterministic comparisons or OTER for trend-aware evaluation -- based on deployment priorities.
- Abstract(参考訳): AI技術の急速な進歩とソフトウェア開発への採用の加速は、機能的正しさとともに環境への影響を体系的に評価する必要がある。
従来の研究では、大きな言語モデルの持続可能性を検討したが、既存のアプローチでは、コード言語モデル(CLM)の精度-エネルギートレードオフを評価するための体系的なフレームワークが欠如している。
本稿では,CLMをエネルギー効率と機能的正当性(精度)の統一スケールでベンチマークするフレームワークBRACEを提案する。
コード生成と要約タスクに関する22の最先端モデルをベンチマークし、CCR(Concentric Incremental Rating Circles)とOTER(Observatory to expectation Rating)の2つの評価手法を提案する。
CIRCは、決定論的ユークリッドに基づくランク付けと、アウトレーヤに対して堅牢な静的トレードオフを提供し、OTERは、エネルギーと精度の複雑な相関を捉え、それぞれが異なる視点を提供し、独自の方法で問題に対処する、動的トレードオフによるトレンドアウェア評価を提供する。
これらの評価手法により,エネルギー効率と機能的正しさの両立性を反映したLLMを1-5スケールで評価することができる。
我々の分析では、文法ベースで構文的に正しい出力を生成するように強制されないため、コード要約タスクにおいて、一般的にモデルの性能が向上することを明らかにした。
また,モデルのサイズが評価に有意な影響を与えないことから,モデルがパラメータを効率的に活用すれば,これらの尺度で上位にランク付けできることが示唆された。
提案されたBRACEフレームワークは、実践者に対して、持続可能性とタスク要件のバランスをとるエビデンスベースのモデル選択、評価選択の導出 -- 決定論的比較のためのCIRC、トレンド対応評価のためのOTER -- をデプロイメントの優先順位に基づいて実施する権限を与える。
関連論文リスト
- Metrics and evaluations for computational and sustainable AI efficiency [26.52588349722099]
現在のアプローチでは全体像の提供に失敗し、システムの比較と最適化が難しい。
本稿では,計算および環境メトリクスを統合するAIモデル推論のための統一的再現可能な方法論を提案する。
本フレームワークは, 遅延を系統的に測定し, スループット, エネルギー消費, 位置調整二酸化炭素排出量を計測することにより, 実用的で炭素を意識した評価を行う。
論文 参考訳(メタデータ) (2025-10-18T03:30:15Z) - A Comparative Benchmark of Large Language Models for Labelling Wind Turbine Maintenance Logs [0.0]
本稿では,複雑な産業記録を分類する作業において,LLM(Large Language Models)をベンチマークするためのフレームワークを提案する。
透明性を促進し、さらなる研究を促進するため、このフレームワークはオープンソースツールとして公開されている。
明確なパフォーマンス階層を定量化し、ベンチマーク標準と高い整合性を示すトップモデルを特定します。
論文 参考訳(メタデータ) (2025-09-08T15:48:17Z) - HeuriGym: An Agentic Benchmark for LLM-Crafted Heuristics in Combinatorial Optimization [31.908590128913094]
HeuriGymは、LLM(Large Language Models)によって生成されたアルゴリズムを評価するために設計されたエージェントフレームワークである。
我々は、コンピュータシステム、ロジスティクス、生物学などの分野における9つの問題に対する9つの最先端モデルを評価し、ツールの使用、計画、適応推論における永続的な制限を明らかにした。
我々のオープンソースベンチマークは、科学・工学分野におけるLLMの開発をより効果的で現実的な問題解決に導くことを目的としています。
論文 参考訳(メタデータ) (2025-06-09T17:46:47Z) - Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。
SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。
分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。