論文の概要: The Energy Cost of Reasoning: Analyzing Energy Usage in LLMs with Test-time Compute
- arxiv url: http://arxiv.org/abs/2505.14733v1
- Date: Tue, 20 May 2025 02:35:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.662823
- Title: The Energy Cost of Reasoning: Analyzing Energy Usage in LLMs with Test-time Compute
- Title(参考訳): 推論のエネルギーコスト:テスト時間計算によるLCMのエネルギー利用分析
- Authors: Yunho Jin, Gu-Yeon Wei, David Brooks,
- Abstract要約: 大規模言語モデル(LLM)のスケーリングは大幅な進歩を遂げているが、リターンの低下とエネルギー需要の増大に直面している。
この研究は、従来のスケーリング戦略を補完するものとして、推論中に追加の計算資源を割り当てるテスト時間計算(TTC)を導入している。
- 参考スコア(独自算出の注目度): 4.827218481154251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling large language models (LLMs) has driven significant advancements, yet it faces diminishing returns and escalating energy demands. This work introduces test-time compute (TTC)-allocating additional computational resources during inference-as a compelling complement to conventional scaling strategies. Specifically, we investigate whether employing TTC can achieve superior accuracy-energy trade-offs compared to simply increasing model size. Our empirical analysis reveals that TTC surpasses traditional model scaling in accuracy/energy efficiency, with notable gains in tasks demanding complex reasoning rather than mere factual recall. Further, we identify a critical interaction between TTC performance and output sequence length, demonstrating that strategically adjusting compute resources at inference time according to query complexity can substantially enhance efficiency. Our findings advocate for TTC as a promising direction, enabling more sustainable, accurate, and adaptable deployment of future language models without incurring additional pretraining costs.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケーリングは大幅な進歩を遂げているが、リターンの低下とエネルギー需要の増大に直面している。
この研究は、従来のスケーリング戦略を補完するものとして、推論中に追加の計算資源を割り当てるテスト時間計算(TTC)を導入している。
具体的には,TTCを用いることで,単にモデルサイズを増大させるよりも高い精度とエネルギーのトレードオフが得られるかを検討する。
我々の経験的分析では、TTCは精度/エネルギー効率の伝統的なモデルスケーリングを超越しており、単純な事実リコールよりも複雑な推論を必要とするタスクが顕著に増加している。
さらに、TTC性能と出力シーケンス長のクリティカルな相互作用を同定し、クエリの複雑さに応じた推論時間での計算資源の戦略的調整が、効率を大幅に向上させることを示した。
我々の研究は、PTCを将来的な方向性として提唱し、さらなる事前訓練コストを伴わずに、より持続的で、正確で、適応可能な将来の言語モデルの展開を可能にした。
関連論文リスト
- DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - An Inquiry into Datacenter TCO for LLM Inference with FP8 [7.910301381209274]
大規模言語モデル(LLM)の計算特性と制約をTCOの観点から解析する。
多様な運用要件に応じて,CSPがAIアクセラレータを比較選択できる汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-03T05:26:22Z) - Context-Preserving Tensorial Reconfiguration in Large Language Model Training [0.0]
CPTR(Context-Preservingial Reconfiguration)は、構造的因子化と適応的収縮による重みテンソルの動的複雑さを実現する。
実証的な評価は、CPTRが拡張配列間のコヒーレンス保持を改善することを示している。
性能比較の結果,CPTR強化モデルでは計算効率が向上し,メモリ消費が減少した。
論文 参考訳(メタデータ) (2025-02-01T00:55:19Z) - From Sparse Dependence to Sparse Attention: Unveiling How Chain-of-Thought Enhances Transformer Sample Efficiency [17.612497960364916]
CoT(Chain-of-Thought)は大規模言語モデル(LLM)の推論性能を著しく向上させる
代表電力が十分である場合でも,CoTは試料効率を大幅に向上できることを示す。
CoTは入力トークン間のスパース依存関係を導入して学習プロセスを単純化し、スパースかつ解釈可能な注意を喚起することを示す。
論文 参考訳(メタデータ) (2024-10-07T19:45:09Z) - TEA: Test-time Energy Adaptation [67.4574269851666]
テスト時間適応(TTA)は、テストデータがトレーニング分布から分岐する際のモデル一般化性を改善することを目的としている。
本稿では,対象データ分布に対するモデルによる認識を高めるための,新しいエネルギーベース視点を提案する。
論文 参考訳(メタデータ) (2023-11-24T10:49:49Z) - Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared
Pre-trained Language Models [109.06052781040916]
本稿ではパラメータ共有言語モデルの推論効率を向上させる手法を提案する。
また、完全あるいは部分的に共有されたモデルにつながる単純な事前学習手法を提案する。
その結果,本手法が自己回帰的および自己符号化的PLMに与える影響が示された。
論文 参考訳(メタデータ) (2023-10-19T15:13:58Z) - In Search of Deep Learning Architectures for Load Forecasting: A
Comparative Analysis and the Impact of the Covid-19 Pandemic on Model
Performance [0.0]
短期負荷予測(STLF)は、その信頼性、排出、コストの最適化に不可欠である。
この研究は、精度の予測と持続可能性のトレーニングに関して、Deep Learning (DL)アーキテクチャの比較研究を行う。
ケーススタディは、ポルトガルの全国15分解像度ネットロードタイムシリーズの日頭予測に焦点を当てている。
論文 参考訳(メタデータ) (2023-02-25T10:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。