論文の概要: Benchmarking the Energy Savings with Speculative Decoding Strategies
- arxiv url: http://arxiv.org/abs/2602.09113v1
- Date: Mon, 09 Feb 2026 19:03:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.20699
- Title: Benchmarking the Energy Savings with Speculative Decoding Strategies
- Title(参考訳): 投機的復号戦略による省エネルギーのベンチマーク
- Authors: Rohit Dutta, Paramita Koley, Soham Poddar, Janardan Misra, Sanjay Podder, Naveen Balani, Saptarshi Ghosh, Niloy Ganguly,
- Abstract要約: LLM推論の遅延と推論コストを削減する効果的な方法として、投機的復号法が登場した。
本稿では、投機的復号化戦略のエネルギー要求に関する総合的な調査を行い、モデルのサイズや家族、投機的復号化戦略、データセット特性といった様々な要因がエネルギー最適化に与える影響を詳細に分析する。
- 参考スコア(独自算出の注目度): 21.287365727027318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding has emerged as an effective method to reduce latency and inference cost of LLM inferences. However, there has been inadequate attention towards the energy requirements of these models. To address this gap, this paper presents a comprehensive survey of energy requirements of speculative decoding strategies, with detailed analysis on how various factors -- model size and family, speculative decoding strategies, and dataset characteristics -- influence the energy optimizations.
- Abstract(参考訳): LLM推論の遅延と推論コストを削減する効果的な方法として、投機的復号法が登場した。
しかし、これらのモデルのエネルギー要求には不適切な注意が向けられている。
このギャップに対処するため, 投機的復号化戦略のエネルギー要求に関する包括的調査を行い, 様々な要因, モデルサイズ, 家族, 投機的復号化戦略, データセット特性がエネルギー最適化に与える影響を詳細に分析した。
関連論文リスト
- Understanding Efficiency: Quantization, Batching, and Serving Strategies in LLM Energy Use [4.513690948889834]
大規模言語モデル(LLM)はますます本番環境に配備され、計算資源やエネルギー需要の負担をトレーニングから推論へとシフトさせるのに寄与している。
我々は,同じモデルにおけるエネルギー消費のオーダー・オブ・マグニチュードの違いを,Emphsystemレベルの設計選択がいかに引き起こすかを示す。
我々の発見は、よりグリーンなAIサービスのための位相認識エネルギープロファイリングとシステムレベルの最適化を動機付けている。
論文 参考訳(メタデータ) (2026-01-29T22:16:25Z) - SAGE: Strategy-Adaptive Generation Engine for Query Rewriting [8.941793732446856]
本稿では,SAGE(Strategy-Adaptive Generation Engine)について紹介する。
SAGEは、最先端のNDCG@10の結果を新たに達成すると同時に、魅力的な創発的行動も明らかにする。
この結果から, 戦略誘導型RLは, よりスケーラブルで, 効率的で, 解釈可能なパラダイムを, 次世代の堅牢な情報検索システム開発に役立てることが示唆された。
論文 参考訳(メタデータ) (2025-06-24T16:50:51Z) - Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [54.22256089592864]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。
当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文 参考訳(メタデータ) (2025-04-01T13:13:43Z) - Energy-Conscious LLM Decoding: Impact of Text Generation Strategies on GPU Energy Consumption [3.684936090307437]
本稿では,テキスト生成復号法とエネルギー効率の関係について検討する。
様々なタスクにまたがる複数の戦略をベンチマークすることで、適切な復号化手法の選択がテキストの品質にどのように影響するかを明らかにする。
以上の結果から,デコード戦略の選択は,出力品質に最小限の影響がある場合でも,GPUエネルギー使用量に大きな影響を与える可能性が示唆された。
論文 参考訳(メタデータ) (2025-02-17T12:10:25Z) - Investigating Energy Efficiency and Performance Trade-offs in LLM Inference Across Tasks and DVFS Settings [1.781045155774463]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて顕著な性能を示した。
しかしながら、彼らの推論ワークロードは計算的かつエネルギー集約的であり、持続可能性や環境への影響に関する懸念を提起している。
論文 参考訳(メタデータ) (2025-01-14T16:02:33Z) - A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。
これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。
本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文 参考訳(メタデータ) (2024-12-18T14:11:15Z) - Deep Reinforcement Learning for Online Optimal Execution Strategies [49.1574468325115]
本稿では,動的な金融市場における非マルコフ的最適実行戦略の学習に挑戦する。
我々は,Deep Deterministic Policy Gradient(DDPG)に基づく新しいアクター批判アルゴリズムを提案する。
提案アルゴリズムは最適実行戦略の近似に成功していることを示す。
論文 参考訳(メタデータ) (2024-10-17T12:38:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。