論文の概要: Beyond Test-Time Compute Strategies: Advocating Energy-per-Token in LLM Inference
- arxiv url: http://arxiv.org/abs/2603.20224v1
- Date: Wed, 04 Mar 2026 15:20:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.910721
- Title: Beyond Test-Time Compute Strategies: Advocating Energy-per-Token in LLM Inference
- Title(参考訳): テスト時間計算戦略を超えて: LLM推論におけるエネルギー対トーケンの回避
- Authors: Patrick Wilhelm, Thorsten Wittkopp, Odej Kao,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクにまたがる優れた性能を示すが、かなりのエネルギーと計算コストが伴う。
SLM(Small Language Models)は、単純なテキスト生成タスクに対して正確な応答を提供する。
これらの戦略は追加のエネルギーコストを導入し、エネルギー精度のトレードオフを生み出す。
- 参考スコア(独自算出の注目度): 1.522424334864671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) demonstrate exceptional performance across diverse tasks but come with substantial energy and computational costs, particularly in request-heavy scenarios. In many real-world applications, the full scale and capabilities of LLMs are often unnecessary, as Small Language Models (SLMs) can provide accurate responses for simpler text generation tasks. When enhanced with advanced reasoning strategies, such as Chain-of-Thought (CoT) prompting or Majority Voting, SLMs can approach the performance of larger models while reducing overall computational requirements. However, these strategies can also introduce additional energy costs, creating an energy-accuracy trade-off. Our analysis examines these trade-offs in test-time compute strategies for smaller models compared to larger ones, using the MMLU benchmark. Additionally, we explore the input-output token dynamics of transformer architectures, which result in nonlinear hardware energy operation curves for LLMs. To bridge AI research with its physical impact, we propose \textit{energy efficiency metrics}, including Energy-per-Token, as complements to traditional accuracy benchmarks. Beyond model selection, we propose controlled reasoning in CoT token generation, using operating curves to regulate reasoning depth dynamically. This vision integrates a energy-aware routing mechanism, ensuring that model selection and inference strategies balance accuracy for sustainable AI deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すが、特に要求の多いシナリオにおいて、かなりのエネルギーと計算コストが伴う。
多くの実世界のアプリケーションでは、Small Language Models (SLM) はより単純なテキスト生成タスクに対して正確な応答を提供するため、LLMの完全なスケールと能力は不要であることが多い。
CoT(Chain-of-Thought)プロンプトやMajority Votingのような高度な推論戦略によって拡張された場合、SLMは計算全体の要求を減らしながら、より大きなモデルの性能にアプローチすることができる。
しかし、これらの戦略は追加のエネルギーコストを導入し、エネルギー精度のトレードオフを生み出すことができる。
MMLUベンチマークを用いて,より小さなモデルに対するテスト時間計算戦略におけるこれらのトレードオフについて検討した。
さらに, トランスアーキテクチャの入出力トークンダイナミクスについて検討し, LLMの非線形ハードウェアエネルギー演算曲線を導出する。
AI研究を物理的影響でブリッジするために、従来の精度ベンチマークの補完として、Energy-per-Tokenを含む‘textit{energy efficiency metrics’を提案する。
モデル選択以外にも,動作曲線を用いて推論深度を動的に制御するCoTトークン生成の制御推論を提案する。
このビジョンは、エネルギ対応のルーティングメカニズムを統合し、モデル選択と推論戦略が、持続可能なAIデプロイメントの正確性をバランスさせることを保証する。
関連論文リスト
- Understanding Efficiency: Quantization, Batching, and Serving Strategies in LLM Energy Use [4.513690948889834]
大規模言語モデル(LLM)はますます本番環境に配備され、計算資源やエネルギー需要の負担をトレーニングから推論へとシフトさせるのに寄与している。
我々は,同じモデルにおけるエネルギー消費のオーダー・オブ・マグニチュードの違いを,Emphsystemレベルの設計選択がいかに引き起こすかを示す。
我々の発見は、よりグリーンなAIサービスのための位相認識エネルギープロファイリングとシステムレベルの最適化を動機付けている。
論文 参考訳(メタデータ) (2026-01-29T22:16:25Z) - The Energy Cost of Reasoning: Analyzing Energy Usage in LLMs with Test-time Compute [5.83525198890183]
大規模言語モデル(LLM)のスケーリングは大幅な進歩を遂げているが、リターンの低下とエネルギー需要の増大に直面している。
本研究は,従来のスケーリング戦略を補完するエネルギー効率の高い計算手法として,テスト時間計算が有効であることを示す。
論文 参考訳(メタデータ) (2025-05-20T02:35:59Z) - Energy Considerations of Large Language Model Inference and Efficiency Optimizations [28.55549828393871]
大規模言語モデル(LLM)の規模と採用が拡大するにつれて、その計算と環境コストは上昇し続けている。
多様なNLPおよびAIワークロードにまたがる共通推論効率最適化のエネルギー含意を系統的に分析する。
本研究により, 推定効率最適化の適切な適用により, 最適化されていないベースラインから最大73%のエネルギー使用量を削減できることが判明した。
論文 参考訳(メタデータ) (2025-04-24T15:45:05Z) - Sustainable LLM Inference for Edge AI: Evaluating Quantized LLMs for Energy Efficiency, Output Accuracy, and Inference Latency [6.306413686006502]
我々はOllamaライブラリから28の量子化大言語モデル(LLM)を包括的に分析する。
我々は、複数の量子化レベルおよびタスクタイプにわたるエネルギー効率、推論性能、出力精度を評価する。
その結果,異なる量子化設定におけるエネルギー効率,推定速度,精度のトレードオフが明らかになった。
論文 参考訳(メタデータ) (2025-04-04T11:29:30Z) - Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [54.22256089592864]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。
当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文 参考訳(メタデータ) (2025-04-01T13:13:43Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Explore Activation Sparsity in Recurrent LLMs for Energy-Efficient Neuromorphic Computing [3.379854610429579]
Recurrent Large Language Models (R-LLM) は自己注意の複雑さを軽減するのに有効であることが証明されている。
ニューロモルフィックハードウェア上でのエネルギー効率を高めるために,R-LLMの活性化をスパースする,低コストでトレーニング不要なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-09T19:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。