論文の概要: Green LLM Techniques in Action: How Effective Are Existing Techniques for Improving the Energy Efficiency of LLM-Based Applications in Industry?
- arxiv url: http://arxiv.org/abs/2601.02512v1
- Date: Mon, 05 Jan 2026 19:35:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.703981
- Title: Green LLM Techniques in Action: How Effective Are Existing Techniques for Improving the Energy Efficiency of LLM-Based Applications in Industry?
- Title(参考訳): グリーンLCMの作用技術:既存の技術は産業におけるLCMベースのアプリケーションのエネルギー効率向上にどの程度有効か?
- Authors: Pelin Rabia Kuran, Rumbidzai Chitakunye, Vincenzo Stoico, Ilja Heitlager, Justus Bogner,
- Abstract要約: 大規模言語モデル(LLM)の急速な採用により、そのエネルギー消費に対する懸念が高まっている。
オランダのITサービス企業であるSchuberg Philisで、業界状況におけるアプリケーションを分析しました。
プロンプト最適化や2ビット量子化といったいくつかの手法は、エネルギー使用量を最大90%削減することができた。
他の品質を実質的に損なわずに大幅なエネルギー削減を達成した唯一の技術は、NvidiaのPrompt Task and Complexityによる小型で大規模なモデルコラボレーションであった。
- 参考スコア(独自算出の注目度): 2.3683790724077864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid adoption of large language models (LLMs) has raised concerns about their substantial energy consumption, especially when deployed at industry scale. While several techniques have been proposed to address this, limited empirical evidence exists regarding the effectiveness of applying them to LLM-based industry applications. To fill this gap, we analyzed a chatbot application in an industrial context at Schuberg Philis, a Dutch IT services company. We then selected four techniques, namely Small and Large Model Collaboration, Prompt Optimization, Quantization, and Batching, applied them to the application in eight variations, and then conducted experiments to study their impact on energy consumption, accuracy, and response time compared to the unoptimized baseline. Our results show that several techniques, such as Prompt Optimization and 2-bit Quantization, managed to reduce energy use significantly, sometimes by up to 90%. However, these techniques especially impacted accuracy negatively, to a degree that is not acceptable in practice. The only technique that achieved significant and strong energy reductions without harming the other qualities substantially was Small and Large Model Collaboration via Nvidia's Prompt Task and Complexity Classifier (NPCC) with prompt complexity thresholds. This highlights that reducing the energy consumption of LLM-based applications is not difficult in practice. However, improving their energy efficiency, i.e., reducing energy use without harming other qualities, remains challenging. Our study provides practical insights to move towards this goal.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な採用は、特に産業規模での展開において、その実質的なエネルギー消費に対する懸念を引き起こしている。
この問題に対処するためにいくつかの技術が提案されているが、LSMベースの産業アプリケーションに適用する方法については、限定的な実証的証拠が存在する。
このギャップを埋めるために、オランダのITサービス会社であるSchuberg Philisの産業環境でチャットボットアプリケーションを分析しました。
次に, 小型・大規模モデルコラボレーション, プロンプト最適化, 量子化, バッチ化という4つの手法を選択し, それらを8種類の応用に適用し, 未最適化ベースラインと比較してエネルギー消費, 精度, 応答時間に与える影響について実験を行った。
以上の結果から,プロンプト最適化や2ビット量子化などいくつかの手法がエネルギー消費を最大90%削減することができた。
しかし、これらの技術は特に精度に悪影響を及ぼし、実際は受け入れられない程度に及んだ。
他の品質を実質的に損なわずに大幅なエネルギー削減を達成した唯一の技術は、すぐに複雑性の閾値を持つNvidiaのPrompt Task and Complexity Classifier (NPCC)によるSmall and Large Model Collaborationであった。
このことは、LLMベースのアプリケーションのエネルギー消費を減らすことは、実際は困難ではないことを強調している。
しかし、エネルギー効率の改善、すなわち他の品質を損なうことなくエネルギー消費を減らすことは依然として困難である。
我々の研究は、この目標に向かって進むための実践的な洞察を提供する。
関連論文リスト
- Energy-Driven Steering: Reducing False Refusals in Large Language Models [80.09252175869858]
エネルギー駆動ステアリング(EDS、Energy-Driven Steering)は、動的で推論時間の介入によってこの問題を解決するために設計された、新しい、微調整自由なフレームワークである。
我々は、望ましくない(偽の拒絶または脱獄)状態に高エネルギーを割り当て、望ましい(好ましくない反応または安全な拒絶)状態に低エネルギーを割り当てるために、軽量な外部エネルギーベースモデル(EBM)を訓練した。
エネルギー関数の勾配を利用してLLMの隠れた状態を低エネルギー領域に動的に操る。
論文 参考訳(メタデータ) (2025-10-09T06:01:41Z) - Optimizing Large Language Models: Metrics, Energy Efficiency, and Case Study Insights [2.1249213103048414]
大規模言語モデル(LLM)の急速な採用により、エネルギー消費と二酸化炭素排出量が大きくなった。
本稿では,これらの問題に対処するため,LLMの展開におけるエネルギー効率の最適化手法の統合について検討する。
論文 参考訳(メタデータ) (2025-04-07T21:56:59Z) - Sustainable LLM Inference for Edge AI: Evaluating Quantized LLMs for Energy Efficiency, Output Accuracy, and Inference Latency [6.306413686006502]
我々はOllamaライブラリから28の量子化大言語モデル(LLM)を包括的に分析する。
我々は、複数の量子化レベルおよびタスクタイプにわたるエネルギー効率、推論性能、出力精度を評価する。
その結果,異なる量子化設定におけるエネルギー効率,推定速度,精度のトレードオフが明らかになった。
論文 参考訳(メタデータ) (2025-04-04T11:29:30Z) - Can We Make Code Green? Understanding Trade-Offs in LLMs vs. Human Code Optimizations [45.243401722182554]
大規模言語モデル(LLM)は、パフォーマンスとエネルギー効率の最適化を開発者が支援すると主張している。
この研究は、科学と工学の応用のために学術と産業の両方で広く使われているマットラブで書かれたソフトウェアに焦点を当てている。
トップ100のGitHubリポジトリで400スクリプトのエネルギ中心の最適化を分析します。
論文 参考訳(メタデータ) (2025-03-26T00:27:29Z) - On the Effectiveness of Microservices Tactics and Patterns to Reduce Energy Consumption: An Experimental Study on Trade-Offs [3.928499292698212]
マイクロサービスベースのシステムは、ソフトウェア産業に定着しています。
持続可能性に関する法律とエネルギー消費ソフトウェアのコストの増大は、これらのシステムにおけるエネルギー効率の重要性を高めます。
アーキテクチャの戦術やパターンについてはいくつかの提案があるが、その効果と、他の品質特性(QA)に関する潜在的なトレードオフは、まだ不明である。
論文 参考訳(メタデータ) (2025-01-24T11:15:23Z) - Investigating Energy Efficiency and Performance Trade-offs in LLM Inference Across Tasks and DVFS Settings [1.781045155774463]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて顕著な性能を示した。
しかしながら、彼らの推論ワークロードは計算的かつエネルギー集約的であり、持続可能性や環境への影響に関する懸念を提起している。
論文 参考訳(メタデータ) (2025-01-14T16:02:33Z) - Prompt engineering and its implications on the energy consumption of Large Language Models [4.791072577881446]
ソフトウェア工学における大規模言語モデル(LLM)は、計算資源、データセンター、二酸化炭素排出に関する深刻な問題を引き起こす。
本稿では,コード生成タスクにおけるLlama 3モデルの炭素排出に及ぼすPETの影響について検討する。
論文 参考訳(メタデータ) (2025-01-10T11:49:31Z) - Impact of ML Optimization Tactics on Greener Pre-Trained ML Models [46.78148962732881]
本研究の目的は,画像分類データセットと事前学習モデルの解析,最適化モデルと非最適化モデルを比較して推論効率を向上させること,最適化の経済的影響を評価することである。
画像分類におけるPyTorch最適化手法(動的量子化、トーチ・コンパイル、局所プルーニング、グローバルプルーニング)と42のHugging Faceモデルの影響を評価するための制御実験を行った。
動的量子化は推論時間とエネルギー消費の大幅な削減を示し、大規模システムに非常に適している。
論文 参考訳(メタデータ) (2024-09-19T16:23:03Z) - One-Shot Sensitivity-Aware Mixed Sparsity Pruning for Large Language Models [42.95555008229016]
そこで本研究では, ヘッセン感度を意識した混合疎水性プルーニング法を, 再トレーニングを必要とせず, 最低50%の疎水性まで適用する方法を提案する。
提案手法の利点は, 空間が極めて高い場合にさらに顕著である。
論文 参考訳(メタデータ) (2023-10-14T05:43:09Z) - Adversarial Energy Disaggregation for Non-intrusive Load Monitoring [78.47901044638525]
非侵入負荷モニタリング(Non-Inrusive Load Monitoring, NILM)としても知られるエネルギー分散は、家庭全体の電力消費を家電固有の個人消費に分けるという問題に挑戦する。
近年の進歩は、ディープニューラルネットワーク(DNN)がNILMに有利な性能を得られることを示している。
我々は、エネルギー分散タスクに新しくなったNILMに、敵対的学習の考え方を導入する。
論文 参考訳(メタデータ) (2021-08-02T03:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。