論文の概要: Sequoia: Scalable, Robust, and Hardware-aware Speculative Decoding
- arxiv url: http://arxiv.org/abs/2402.12374v3
- Date: Sat, 05 Jul 2025 03:31:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.028471
- Title: Sequoia: Scalable, Robust, and Hardware-aware Speculative Decoding
- Title(参考訳): Sequoia: スケーラブル、ロバスト、ハードウェア対応の投機的デコーディング
- Authors: Zhuoming Chen, Avner May, Ruslan Svirschevski, Yuhsun Huang, Max Ryabinin, Zhihao Jia, Beidi Chen,
- Abstract要約: 本稿では、投機的復号化のためのスケーラブルで堅牢でハードウェア対応のアルゴリズムであるSequoiaを紹介する。
我々はSequoiaがA100でLlama2-7B、Llama2-13B、Vicuna-33Bの復号速度を最大4.04times$、$3.73times$、$2.27times$に改善したことを示す。
- 参考スコア(独自算出の注目度): 17.915075823900334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the usage of large language models (LLMs) grows, performing efficient inference with these models becomes increasingly important. While speculative decoding has recently emerged as a promising direction for speeding up inference, existing methods are limited in their ability to scale to larger speculation budgets, and adapt to different hyperparameters and hardware. This paper introduces Sequoia, a scalable, robust, and hardware-aware algorithm for speculative decoding. To attain better scalability, Sequoia introduces a dynamic programming algorithm to find the optimal tree structure for the speculated tokens. To achieve robust speculative performance, Sequoia uses a novel sampling and verification method that outperforms prior work across different decoding temperatures. Finally, Sequoia introduces a hardware-aware tree optimizer that maximizes speculative performance by automatically selecting the token tree size and depth for a given hardware platform. Evaluation shows that Sequoia improves the decoding speed of Llama2-7B, Llama2-13B, and Vicuna-33B on an A100 by up to $4.04\times$, $3.73\times$, and $2.27\times$. For offloading setting on L40, Sequoia achieves as low as 0.56 s/token for exact Llama2-70B inference latency, which is $9.96\times$ on our optimized offloading system (5.6 s/token), $9.7\times$ than DeepSpeed-Zero-Inference, $19.5\times$ than Huggingface Accelerate.
- Abstract(参考訳): 大規模言語モデル(LLM)の利用が増加するにつれて、これらのモデルによる効率的な推論がますます重要になる。
投機的復号化は推論を高速化するための有望な方向として最近登場したが、既存の手法は投機予算を拡大し、異なるハイパーパラメータやハードウェアに適応する能力に制限されている。
本稿では、投機的復号化のためのスケーラブルで堅牢でハードウェア対応のアルゴリズムであるSequoiaを紹介する。
スケーラビリティ向上のために、Sequoiaは、推測されたトークンの最適なツリー構造を見つけるための動的プログラミングアルゴリズムを導入した。
堅牢な投機的パフォーマンスを達成するために、Sequoiaは、異なる復号温度で前の作業より優れた、新しいサンプリングと検証方法を使用している。
最後に、Sequoiaはハードウェア対応ツリーオプティマイザを導入し、特定のハードウェアプラットフォームでトークンツリーのサイズと深さを自動的に選択することで、投機的パフォーマンスを最大化する。
Sequoiaは、A100上でのLlama2-7B、Llama2-13B、Vicuna-33Bの復号速度を最大4.04\times$、$3.73\times$、$2.27\times$で改善している。
L40のオフローディング設定では、Sequoiaは正確なLlama2-70B推論遅延に対して0.56 s/tokenに達し、最適化されたオフローディングシステム(5.6 s/token)では9.96 s/token、DeepSpeed-Zero-Inferenceよりは9.7 s/token、Huggingface Accelerateよりは19.5 s/times$である。
関連論文リスト
- S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。
S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-20T09:18:53Z) - Don't Get Lost in the Trees: Streamlining LLM Reasoning by Overcoming Tree Search Exploration Pitfalls [83.89771461061903]
検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。
検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。
意味論的に等価なコンテンツを持つ冗長な状態による$textitover-Exploration$と、検証器のスコアリングにおける高いばらつきに起因する$textitunder-Exploration$である。
各種木探索アルゴリズムに適合するフレキシブルなプラグアンドプレイシステムであるFETCHを提案する。
論文 参考訳(メタデータ) (2025-02-16T16:12:01Z) - SuffixDecoding: A Model-Free Approach to Speeding Up Large Language Model Inference [9.143856130336783]
SuffixDecodingは、投機的復号化を通じて大きな言語モデル(LLM)推論を加速するためのモデルなしのアプローチである。
当社のアプローチは,新たなモデルの維持と編成のオーバーヘッドを伴わずに,柔軟な木構造推測を可能にする。
プロプライエタリなマルチLLMテキスト・ツー・トーケンアプリケーションでは、SuffixDecodingは2.9倍の出力スループットと3倍のレイテンシを実現している。
論文 参考訳(メタデータ) (2024-11-07T18:49:33Z) - CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - DySpec: Faster Speculative Decoding with Dynamic Token Tree Structure [23.081828329912636]
動的トークンツリー構造を持つ高速な投機的復号アルゴリズムであるDySpecを提案する。
低温条件下では、DySpecはスループットを9.1$times$に改善し、レイテンシをLlama2-70Bで9.4$times$に削減できる。
論文 参考訳(メタデータ) (2024-10-15T16:21:15Z) - LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - BASS: Batched Attention-optimized Speculative Sampling [25.716774131268753]
投機的復号化は、大規模言語モデルをホストする際のレイテンシとスループットを改善する強力な方法として登場した。
本稿では,バッチ化された投機的復号化システムについて述べる。
私たちのシステムは、HumanEval Pass@Firstの43%とPass@Allの61%のシーケンスを生成することができ、単一シーケンスの投機的デコーディングで実現可能なものよりもはるかに多い。
論文 参考訳(メタデータ) (2024-04-24T09:57:11Z) - End-to-end Feature Selection Approach for Learning Skinny Trees [13.388576838688202]
木アンサンブルにおける特徴選択のための最適化に基づく新しい手法を提案する。
Skinny Treesは、ツリーアンサンブルの機能選択のためのエンドツーエンドツールキットである。
論文 参考訳(メタデータ) (2023-10-28T00:15:10Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z) - Improving Dual-Encoder Training through Dynamic Indexes for Negative
Mining [61.09807522366773]
本稿では,ソフトマックスを証明可能な境界で近似し,木を動的に維持するアルゴリズムを提案する。
我々は,2000万以上のターゲットを持つデータセットについて検討し,オラクル・ブルート力負の鉱業に関して,誤差を半分に削減した。
論文 参考訳(メタデータ) (2023-03-27T15:18:32Z) - Speculative Decoding: Exploiting Speculative Execution for Accelerating
Seq2seq Generation [80.2267931231335]
本稿では,自己回帰(AR)デコーディングを高速化する投機的実行のアイデアを活用するための投機的デコーディング(SpecDec)を提案する。
SpecDecには2つのイノベーションがある。Spec-Drafter - 効率的なドラフトのために特別に最適化された独立モデル、Spec-Verification - ドラフトされたトークンを効率的に検証するための信頼性の高い方法である。
論文 参考訳(メタデータ) (2022-03-30T17:27:09Z) - LightSpeech: Lightweight and Fast Text to Speech with Neural
Architecture Search [127.56834100382878]
我々は、FastSpeechに基づくより軽量で効率的なTSモデルを自動的に設計するLightSpeechを提案する。
実験の結果,提案手法により検出されたモデルは,CPU上での15倍のモデル圧縮比と6.5倍の推論高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-02-08T07:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。