論文の概要: Benchmarking the Energy Savings with Speculative Decoding Strategies
- arxiv url: http://arxiv.org/abs/2602.09113v1
- Date: Mon, 09 Feb 2026 19:03:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.20699
- Title: Benchmarking the Energy Savings with Speculative Decoding Strategies
- Title(参考訳): 投機的復号戦略による省エネルギーのベンチマーク
- Authors: Rohit Dutta, Paramita Koley, Soham Poddar, Janardan Misra, Sanjay Podder, Naveen Balani, Saptarshi Ghosh, Niloy Ganguly,
- Abstract要約: LLM推論の遅延と推論コストを削減する効果的な方法として、投機的復号法が登場した。
本稿では、投機的復号化戦略のエネルギー要求に関する総合的な調査を行い、モデルのサイズや家族、投機的復号化戦略、データセット特性といった様々な要因がエネルギー最適化に与える影響を詳細に分析する。
- 参考スコア(独自算出の注目度): 21.287365727027318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding has emerged as an effective method to reduce latency and inference cost of LLM inferences. However, there has been inadequate attention towards the energy requirements of these models. To address this gap, this paper presents a comprehensive survey of energy requirements of speculative decoding strategies, with detailed analysis on how various factors -- model size and family, speculative decoding strategies, and dataset characteristics -- influence the energy optimizations.
- Abstract(参考訳): LLM推論の遅延と推論コストを削減する効果的な方法として、投機的復号法が登場した。
しかし、これらのモデルのエネルギー要求には不適切な注意が向けられている。
このギャップに対処するため, 投機的復号化戦略のエネルギー要求に関する包括的調査を行い, 様々な要因, モデルサイズ, 家族, 投機的復号化戦略, データセット特性がエネルギー最適化に与える影響を詳細に分析した。
関連論文リスト
- Understanding Efficiency: Quantization, Batching, and Serving Strategies in LLM Energy Use [4.513690948889834]
大規模言語モデル(LLM)はますます本番環境に配備され、計算資源やエネルギー需要の負担をトレーニングから推論へとシフトさせるのに寄与している。
我々は,同じモデルにおけるエネルギー消費のオーダー・オブ・マグニチュードの違いを,Emphsystemレベルの設計選択がいかに引き起こすかを示す。
我々の発見は、よりグリーンなAIサービスのための位相認識エネルギープロファイリングとシステムレベルの最適化を動機付けている。
論文 参考訳(メタデータ) (2026-01-29T22:16:25Z) - Physical Layer Deception based on Semantic Distortion [58.38604209714828]
物理層 deception (PLD) は、物理層セキュリティ(PLS)と偽造技術を統合するフレームワークである。
我々は,この枠組みを意味的コミュニケーションモデルに拡張し,性能指標として意味的歪みを用いた理論的解析を行う。
論文 参考訳(メタデータ) (2025-10-16T18:23:35Z) - SAGE: Strategy-Adaptive Generation Engine for Query Rewriting [8.941793732446856]
本稿では,SAGE(Strategy-Adaptive Generation Engine)について紹介する。
SAGEは、最先端のNDCG@10の結果を新たに達成すると同時に、魅力的な創発的行動も明らかにする。
この結果から, 戦略誘導型RLは, よりスケーラブルで, 効率的で, 解釈可能なパラダイムを, 次世代の堅牢な情報検索システム開発に役立てることが示唆された。
論文 参考訳(メタデータ) (2025-06-24T16:50:51Z) - Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [54.22256089592864]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。
当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文 参考訳(メタデータ) (2025-04-01T13:13:43Z) - Energy-Conscious LLM Decoding: Impact of Text Generation Strategies on GPU Energy Consumption [3.684936090307437]
本稿では,テキスト生成復号法とエネルギー効率の関係について検討する。
様々なタスクにまたがる複数の戦略をベンチマークすることで、適切な復号化手法の選択がテキストの品質にどのように影響するかを明らかにする。
以上の結果から,デコード戦略の選択は,出力品質に最小限の影響がある場合でも,GPUエネルギー使用量に大きな影響を与える可能性が示唆された。
論文 参考訳(メタデータ) (2025-02-17T12:10:25Z) - Investigating Energy Efficiency and Performance Trade-offs in LLM Inference Across Tasks and DVFS Settings [1.781045155774463]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて顕著な性能を示した。
しかしながら、彼らの推論ワークロードは計算的かつエネルギー集約的であり、持続可能性や環境への影響に関する懸念を提起している。
論文 参考訳(メタデータ) (2025-01-14T16:02:33Z) - A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。
これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。
本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文 参考訳(メタデータ) (2024-12-18T14:11:15Z) - An exploration of the effect of quantisation on energy consumption and inference time of StarCoder2 [0.0]
本研究では,Large Language Models (LLMs) 推論におけるエネルギー消費を削減するための量子化とプルーニング戦略について検討する。
我々は,低スループットとある程度の精度の損失により,量子化によるエネルギー需要の増加を観察する。
精度の低下を最小限に抑えて効率を向上させるため,ハードウェア最適化量子化に関する今後の研究を提案する。
論文 参考訳(メタデータ) (2024-11-15T21:28:19Z) - A Theoretical Perspective for Speculative Decoding Algorithm [60.79447486066416]
EmphSpeculative Decodingは、小さなモデルを使用して、ドラフトトークンのシーケンスと、検証のための大きなモデルをサンプリングする。
本稿では,マルコフ連鎖抽象化による復号化問題を概念化し,理論的な観点から,鍵特性,エファンアウトプットの品質,推論加速度について考察する。
論文 参考訳(メタデータ) (2024-10-30T01:53:04Z) - Deep Reinforcement Learning for Online Optimal Execution Strategies [49.1574468325115]
本稿では,動的な金融市場における非マルコフ的最適実行戦略の学習に挑戦する。
我々は,Deep Deterministic Policy Gradient(DDPG)に基づく新しいアクター批判アルゴリズムを提案する。
提案アルゴリズムは最適実行戦略の近似に成功していることを示す。
論文 参考訳(メタデータ) (2024-10-17T12:38:08Z) - A Closer Look at Data Augmentation Strategies for Finetuning-Based Low/Few-Shot Object Detection [5.434078645728145]
本稿では、カスタムデータ拡張のモデル性能とエネルギー効率の両立と自動データ拡張選択戦略について検討する。
多くの場合、データ拡張戦略の性能向上は、そのエネルギー使用量の増加によって、過度に隠蔽されていることが示されている。
論文 参考訳(メタデータ) (2024-08-20T15:29:56Z) - The Efficiency Spectrum of Large Language Models: An Algorithmic Survey [54.19942426544731]
LLM(Large Language Models)の急速な成長は、様々なドメインを変換する原動力となっている。
本稿では,LLMのエンドツーエンドのアルゴリズム開発に不可欠な多面的効率性について検討する。
論文 参考訳(メタデータ) (2023-12-01T16:00:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。