論文の概要: Sequoia: Scalable, Robust, and Hardware-aware Speculative Decoding
- arxiv url: http://arxiv.org/abs/2402.12374v1
- Date: Mon, 19 Feb 2024 18:58:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 14:58:54.977177
- Title: Sequoia: Scalable, Robust, and Hardware-aware Speculative Decoding
- Title(参考訳): Sequoia: スケーラブル、ロバスト、ハードウェア対応の投機的デコーディング
- Authors: Zhuoming Chen, Avner May, Ruslan Svirschevski, Yuhsun Huang, Max
Ryabinin, Zhihao Jia, Beidi Chen
- Abstract要約: 本稿では、投機的復号化のためのスケーラブルで堅牢でハードウェア対応のアルゴリズムであるSequoiaを紹介する。
我々は、SequoiaがA100上のLlama2-7B、Llama2-13B、Vicuna-33Bのデコード速度を最大4.04times$、$3.84times$、$2.37times$、Llama2-70Bのオフロードを最大10.33times$で改善していることを示す。
- 参考スコア(独自算出の注目度): 18.813440211509022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the usage of large language models (LLMs) grows, performing efficient
inference with these models becomes increasingly important. While speculative
decoding has recently emerged as a promising direction for speeding up
inference, existing methods are limited in their ability to scale to larger
speculation budgets, and adapt to different hyperparameters and hardware. This
paper introduces Sequoia, a scalable, robust, and hardware-aware algorithm for
speculative decoding. To attain better scalability, Sequoia introduces a
dynamic programming algorithm to find the optimal tree structure for the
speculated tokens. To achieve robust speculative performance, Sequoia uses a
novel sampling and verification method that outperforms prior work across
different decoding temperatures. Finally, Sequoia introduces a hardware-aware
tree optimizer that maximizes speculative performance by automatically
selecting the token tree size and depth for a given hardware platform.
Evaluation shows that Sequoia improves the decoding speed of Llama2-7B,
Llama2-13B, and Vicuna-33B on an A100 by up to $4.04\times$, $3.84\times$, and
$2.37\times$, and Llama2-70B offloading by up to $10.33\times$ on L40.
- Abstract(参考訳): 大規模言語モデル(LLM)の利用が増加するにつれて、これらのモデルによる効率的な推論がますます重要になる。
投機的復号化は推論を高速化するための有望な方向として最近登場したが、既存の手法は投機予算を拡大し、異なるハイパーパラメータやハードウェアに適応する能力に制限されている。
本稿では,投機的復号化のためのスケーラブルでロバストでハードウェア対応のアルゴリズムsequoiaを紹介する。
より優れたスケーラビリティを実現するため、sequoiaは推測されたトークンの最適ツリー構造を見つけるために動的プログラミングアルゴリズムを導入した。
安定した投機的性能を達成するためにsequoiaは、異なる復号温度で以前の作業を上回る新しいサンプリングおよび検証手法を使用している。
最後に、Sequoiaはハードウェア対応ツリーオプティマイザを導入し、特定のハードウェアプラットフォームのトークンツリーサイズと深さを自動的に選択することで、投機的パフォーマンスを最大化する。
評価によると、sequoiaはa100のllama2-7b, llama2-13b, vicuna-33bの復号速度を最大4.04\times$, $3.84\times$, $2.37\times$, llama2-70bのl40でのオフロードを最大10.33\times$とする。
関連論文リスト
- SuffixDecoding: A Model-Free Approach to Speeding Up Large Language Model Inference [9.143856130336783]
SuffixDecodingは、投機的復号化を通じて大きな言語モデル(LLM)推論を加速するためのモデルなしのアプローチである。
当社のアプローチは,新たなモデルの維持と編成のオーバーヘッドを伴わずに,柔軟な木構造推測を可能にする。
プロプライエタリなマルチLLMテキスト・ツー・トーケンアプリケーションでは、SuffixDecodingは2.9倍の出力スループットと3倍のレイテンシを実現している。
論文 参考訳(メタデータ) (2024-11-07T18:49:33Z) - CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - DySpec: Faster Speculative Decoding with Dynamic Token Tree Structure [23.081828329912636]
動的トークンツリー構造を持つ高速な投機的復号アルゴリズムであるDySpecを提案する。
低温条件下では、DySpecはスループットを9.1$times$に改善し、レイテンシをLlama2-70Bで9.4$times$に削減できる。
論文 参考訳(メタデータ) (2024-10-15T16:21:15Z) - LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - BASS: Batched Attention-optimized Speculative Sampling [25.716774131268753]
投機的復号化は、大規模言語モデルをホストする際のレイテンシとスループットを改善する強力な方法として登場した。
本稿では,バッチ化された投機的復号化システムについて述べる。
私たちのシステムは、HumanEval Pass@Firstの43%とPass@Allの61%のシーケンスを生成することができ、単一シーケンスの投機的デコーディングで実現可能なものよりもはるかに多い。
論文 参考訳(メタデータ) (2024-04-24T09:57:11Z) - End-to-end Feature Selection Approach for Learning Skinny Trees [13.388576838688202]
木アンサンブルにおける特徴選択のための最適化に基づく新しい手法を提案する。
Skinny Treesは、ツリーアンサンブルの機能選択のためのエンドツーエンドツールキットである。
論文 参考訳(メタデータ) (2023-10-28T00:15:10Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z) - Improving Dual-Encoder Training through Dynamic Indexes for Negative
Mining [61.09807522366773]
本稿では,ソフトマックスを証明可能な境界で近似し,木を動的に維持するアルゴリズムを提案する。
我々は,2000万以上のターゲットを持つデータセットについて検討し,オラクル・ブルート力負の鉱業に関して,誤差を半分に削減した。
論文 参考訳(メタデータ) (2023-03-27T15:18:32Z) - Speculative Decoding: Exploiting Speculative Execution for Accelerating
Seq2seq Generation [80.2267931231335]
本稿では,自己回帰(AR)デコーディングを高速化する投機的実行のアイデアを活用するための投機的デコーディング(SpecDec)を提案する。
SpecDecには2つのイノベーションがある。Spec-Drafter - 効率的なドラフトのために特別に最適化された独立モデル、Spec-Verification - ドラフトされたトークンを効率的に検証するための信頼性の高い方法である。
論文 参考訳(メタデータ) (2022-03-30T17:27:09Z) - LightSpeech: Lightweight and Fast Text to Speech with Neural
Architecture Search [127.56834100382878]
我々は、FastSpeechに基づくより軽量で効率的なTSモデルを自動的に設計するLightSpeechを提案する。
実験の結果,提案手法により検出されたモデルは,CPU上での15倍のモデル圧縮比と6.5倍の推論高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-02-08T07:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。