論文の概要: The Energy Cost of Reasoning: Analyzing Energy Usage in LLMs with Test-time Compute
- arxiv url: http://arxiv.org/abs/2505.14733v1
- Date: Tue, 20 May 2025 02:35:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.662823
- Title: The Energy Cost of Reasoning: Analyzing Energy Usage in LLMs with Test-time Compute
- Title(参考訳): 推論のエネルギーコスト:テスト時間計算によるLCMのエネルギー利用分析
- Authors: Yunho Jin, Gu-Yeon Wei, David Brooks,
- Abstract要約: 大規模言語モデル(LLM)のスケーリングは大幅な進歩を遂げているが、リターンの低下とエネルギー需要の増大に直面している。
この研究は、従来のスケーリング戦略を補完するものとして、推論中に追加の計算資源を割り当てるテスト時間計算(TTC)を導入している。
- 参考スコア(独自算出の注目度): 4.827218481154251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling large language models (LLMs) has driven significant advancements, yet it faces diminishing returns and escalating energy demands. This work introduces test-time compute (TTC)-allocating additional computational resources during inference-as a compelling complement to conventional scaling strategies. Specifically, we investigate whether employing TTC can achieve superior accuracy-energy trade-offs compared to simply increasing model size. Our empirical analysis reveals that TTC surpasses traditional model scaling in accuracy/energy efficiency, with notable gains in tasks demanding complex reasoning rather than mere factual recall. Further, we identify a critical interaction between TTC performance and output sequence length, demonstrating that strategically adjusting compute resources at inference time according to query complexity can substantially enhance efficiency. Our findings advocate for TTC as a promising direction, enabling more sustainable, accurate, and adaptable deployment of future language models without incurring additional pretraining costs.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケーリングは大幅な進歩を遂げているが、リターンの低下とエネルギー需要の増大に直面している。
この研究は、従来のスケーリング戦略を補完するものとして、推論中に追加の計算資源を割り当てるテスト時間計算(TTC)を導入している。
具体的には,TTCを用いることで,単にモデルサイズを増大させるよりも高い精度とエネルギーのトレードオフが得られるかを検討する。
我々の経験的分析では、TTCは精度/エネルギー効率の伝統的なモデルスケーリングを超越しており、単純な事実リコールよりも複雑な推論を必要とするタスクが顕著に増加している。
さらに、TTC性能と出力シーケンス長のクリティカルな相互作用を同定し、クエリの複雑さに応じた推論時間での計算資源の戦略的調整が、効率を大幅に向上させることを示した。
我々の研究は、PTCを将来的な方向性として提唱し、さらなる事前訓練コストを伴わずに、より持続的で、正確で、適応可能な将来の言語モデルの展開を可能にした。
関連論文リスト
- Reasoning on a Budget: A Survey of Adaptive and Controllable Test-Time Compute in LLMs [45.83245433138508]
大規模言語モデル(LLM)は、幅広いタスクを解くことができる汎用エージェントへと急速に進歩してきた。
彼らは、タスクの複雑さに関わらず、固定推論時間計算を適用し、しばしば難しいことを考えながら単純な問題を過小評価する。
本調査では, LLM推論の計算効率向上を目的とした, 効率的なテスト時間計算戦略の総合的なレビューを行う。
論文 参考訳(メタデータ) (2025-07-02T18:27:42Z) - Lightweight Task-Oriented Semantic Communication Empowered by Large-Scale AI Models [66.57755931421285]
大規模人工知能(LAI)モデルは、リアルタイム通信シナリオにおいて重大な課題を提起する。
本稿では,LAIモデルから知識を抽出・凝縮するために知識蒸留(KD)技術を活用することを提案する。
本稿では,反復推論の必要性を排除したプレストア圧縮機構を備えた高速蒸留法を提案する。
論文 参考訳(メタデータ) (2025-06-16T08:42:16Z) - Scaling over Scaling: Exploring Test-Time Scaling Plateau in Large Reasoning Models [7.2703757624760526]
大規模推論モデル(LRM)は、内部テストタイムスケーリングによる推論性能の向上能力を示した。
これらのスケーリング境界を推し進めるにつれて、現実的な限界を理解し、最適なリソース割り当てを達成することが重要な課題となります。
本稿では,テストタイムスケーリングのスケーリングプレートを調査し,TTSPM(Test-Time Scaling Performance Model)を導入する。
論文 参考訳(メタデータ) (2025-05-26T20:58:45Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - An Inquiry into Datacenter TCO for LLM Inference with FP8 [7.910301381209274]
大規模言語モデル(LLM)の計算特性と制約をTCOの観点から解析する。
多様な運用要件に応じて,CSPがAIアクセラレータを比較選択できる汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-03T05:26:22Z) - Context-Preserving Tensorial Reconfiguration in Large Language Model Training [0.0]
CPTR(Context-Preservingial Reconfiguration)は、構造的因子化と適応的収縮による重みテンソルの動的複雑さを実現する。
実証的な評価は、CPTRが拡張配列間のコヒーレンス保持を改善することを示している。
性能比較の結果,CPTR強化モデルでは計算効率が向上し,メモリ消費が減少した。
論文 参考訳(メタデータ) (2025-02-01T00:55:19Z) - Sparse Mixture-of-Experts for Compositional Generalization: Empirical Evidence and Theoretical Foundations of Optimal Sparsity [89.81738321188391]
本研究では,SMoEモデルにおけるタスク複雑性と最適空間の関係について検討する。
最適な間隔は、最小限のアクティベーション(1-2専門家)とフルアクティベーションの間にあり、その正確な数はタスクの複雑さに比例する。
論文 参考訳(メタデータ) (2024-10-17T18:40:48Z) - From Sparse Dependence to Sparse Attention: Unveiling How Chain-of-Thought Enhances Transformer Sample Efficiency [17.612497960364916]
CoT(Chain-of-Thought)は大規模言語モデル(LLM)の推論性能を著しく向上させる
代表電力が十分である場合でも,CoTは試料効率を大幅に向上できることを示す。
CoTは入力トークン間のスパース依存関係を導入して学習プロセスを単純化し、スパースかつ解釈可能な注意を喚起することを示す。
論文 参考訳(メタデータ) (2024-10-07T19:45:09Z) - TEA: Test-time Energy Adaptation [67.4574269851666]
テスト時間適応(TTA)は、テストデータがトレーニング分布から分岐する際のモデル一般化性を改善することを目的としている。
本稿では,対象データ分布に対するモデルによる認識を高めるための,新しいエネルギーベース視点を提案する。
論文 参考訳(メタデータ) (2023-11-24T10:49:49Z) - Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared
Pre-trained Language Models [109.06052781040916]
本稿ではパラメータ共有言語モデルの推論効率を向上させる手法を提案する。
また、完全あるいは部分的に共有されたモデルにつながる単純な事前学習手法を提案する。
その結果,本手法が自己回帰的および自己符号化的PLMに与える影響が示された。
論文 参考訳(メタデータ) (2023-10-19T15:13:58Z) - Energy-Efficient and Real-Time Sensing for Federated Continual Learning via Sample-Driven Control [21.871879862642235]
リアルタイムセンシング(RTS)システムは、現実のダイナミクスに適応するために、継続的に知識を取得し、更新し、統合し、適用しなければならない。
本稿では,データ分散が人工知能(AI)モデルの性能に与える影響について検討する。
本研究では,RTS機能を有するモバイルエッジネットワークを対象としたSCFL(Sample-driven Control for Federated Continual Learning)技術を開発した。
論文 参考訳(メタデータ) (2023-10-11T13:50:28Z) - In Search of Deep Learning Architectures for Load Forecasting: A
Comparative Analysis and the Impact of the Covid-19 Pandemic on Model
Performance [0.0]
短期負荷予測(STLF)は、その信頼性、排出、コストの最適化に不可欠である。
この研究は、精度の予測と持続可能性のトレーニングに関して、Deep Learning (DL)アーキテクチャの比較研究を行う。
ケーススタディは、ポルトガルの全国15分解像度ネットロードタイムシリーズの日頭予測に焦点を当てている。
論文 参考訳(メタデータ) (2023-02-25T10:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。