論文の概要: Sequoia: Scalable, Robust, and Hardware-aware Speculative Decoding
- arxiv url: http://arxiv.org/abs/2402.12374v1
- Date: Mon, 19 Feb 2024 18:58:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 14:58:54.977177
- Title: Sequoia: Scalable, Robust, and Hardware-aware Speculative Decoding
- Title(参考訳): Sequoia: スケーラブル、ロバスト、ハードウェア対応の投機的デコーディング
- Authors: Zhuoming Chen, Avner May, Ruslan Svirschevski, Yuhsun Huang, Max
Ryabinin, Zhihao Jia, Beidi Chen
- Abstract要約: 本稿では、投機的復号化のためのスケーラブルで堅牢でハードウェア対応のアルゴリズムであるSequoiaを紹介する。
我々は、SequoiaがA100上のLlama2-7B、Llama2-13B、Vicuna-33Bのデコード速度を最大4.04times$、$3.84times$、$2.37times$、Llama2-70Bのオフロードを最大10.33times$で改善していることを示す。
- 参考スコア(独自算出の注目度): 18.813440211509022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the usage of large language models (LLMs) grows, performing efficient
inference with these models becomes increasingly important. While speculative
decoding has recently emerged as a promising direction for speeding up
inference, existing methods are limited in their ability to scale to larger
speculation budgets, and adapt to different hyperparameters and hardware. This
paper introduces Sequoia, a scalable, robust, and hardware-aware algorithm for
speculative decoding. To attain better scalability, Sequoia introduces a
dynamic programming algorithm to find the optimal tree structure for the
speculated tokens. To achieve robust speculative performance, Sequoia uses a
novel sampling and verification method that outperforms prior work across
different decoding temperatures. Finally, Sequoia introduces a hardware-aware
tree optimizer that maximizes speculative performance by automatically
selecting the token tree size and depth for a given hardware platform.
Evaluation shows that Sequoia improves the decoding speed of Llama2-7B,
Llama2-13B, and Vicuna-33B on an A100 by up to $4.04\times$, $3.84\times$, and
$2.37\times$, and Llama2-70B offloading by up to $10.33\times$ on L40.
- Abstract(参考訳): 大規模言語モデル(LLM)の利用が増加するにつれて、これらのモデルによる効率的な推論がますます重要になる。
投機的復号化は推論を高速化するための有望な方向として最近登場したが、既存の手法は投機予算を拡大し、異なるハイパーパラメータやハードウェアに適応する能力に制限されている。
本稿では,投機的復号化のためのスケーラブルでロバストでハードウェア対応のアルゴリズムsequoiaを紹介する。
より優れたスケーラビリティを実現するため、sequoiaは推測されたトークンの最適ツリー構造を見つけるために動的プログラミングアルゴリズムを導入した。
安定した投機的性能を達成するためにsequoiaは、異なる復号温度で以前の作業を上回る新しいサンプリングおよび検証手法を使用している。
最後に、Sequoiaはハードウェア対応ツリーオプティマイザを導入し、特定のハードウェアプラットフォームのトークンツリーサイズと深さを自動的に選択することで、投機的パフォーマンスを最大化する。
評価によると、sequoiaはa100のllama2-7b, llama2-13b, vicuna-33bの復号速度を最大4.04\times$, $3.84\times$, $2.37\times$, llama2-70bのl40でのオフロードを最大10.33\times$とする。
関連論文リスト
- BASS: Batched Attention-optimized Speculative Sampling [25.716774131268753]
投機的復号化は、大規模言語モデルをホストする際のレイテンシとスループットを改善する強力な方法として登場した。
本稿では,バッチ化された投機的復号化システムについて述べる。
私たちのシステムは、HumanEval Pass@Firstの43%とPass@Allの61%のシーケンスを生成することができ、単一シーケンスの投機的デコーディングで実現可能なものよりもはるかに多い。
論文 参考訳(メタデータ) (2024-04-24T09:57:11Z) - TriForce: Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding [43.28712253351293]
キーバリュー(KV)キャッシュは、効率的なロングシーケンスサポートのボトルネックとして現れている。
TriForceは階層的な投機的復号化システムであり、長いシーケンス生成にスケーラブルである。
トリフォースの頑丈さは、様々な温度で一貫して卓越した性能で強調されている。
論文 参考訳(メタデータ) (2024-04-18T05:25:54Z) - End-to-end Feature Selection Approach for Learning Skinny Trees [15.047418632192754]
複合機能選択とツリーアンサンブル学習は難しい課題である。一般的な木アンサンブルツールキット(グラディエントツリーやランダムフォレストなど)は、誤解を招くことが知られている特徴量に基づいた特徴選択をサポートし、パフォーマンスを著しく損なう可能性がある。
本研究では,木組におけるアンサンブル選択のためのスキニーツリーツールキットを提案し,特徴選択とツリーアンサンブル学習を同時に行う。
論文 参考訳(メタデータ) (2023-10-28T00:15:10Z) - SpecTr: Fast Speculative Decoding via Optimal Transport [30.18181671899423]
このアルゴリズムはデコーディングの高速化を図り、デコードされた出力に品質劣化がないことを保証します。
提案手法は,最先端の大規模言語モデルに対して,標準的なベンチマーク上での投機的復号化よりもさらに1.37倍の高速化である2.13Xのウォールクロック高速化を実現することを実験的に実証した。
論文 参考訳(メタデータ) (2023-10-23T17:47:34Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z) - Improving Dual-Encoder Training through Dynamic Indexes for Negative
Mining [61.09807522366773]
本稿では,ソフトマックスを証明可能な境界で近似し,木を動的に維持するアルゴリズムを提案する。
我々は,2000万以上のターゲットを持つデータセットについて検討し,オラクル・ブルート力負の鉱業に関して,誤差を半分に削減した。
論文 参考訳(メタデータ) (2023-03-27T15:18:32Z) - Speculative Decoding: Exploiting Speculative Execution for Accelerating
Seq2seq Generation [80.2267931231335]
本稿では,自己回帰(AR)デコーディングを高速化する投機的実行のアイデアを活用するための投機的デコーディング(SpecDec)を提案する。
SpecDecには2つのイノベーションがある。Spec-Drafter - 効率的なドラフトのために特別に最適化された独立モデル、Spec-Verification - ドラフトされたトークンを効率的に検証するための信頼性の高い方法である。
論文 参考訳(メタデータ) (2022-03-30T17:27:09Z) - Fast TreeSHAP: Accelerating SHAP Value Computation for Trees [0.0]
本稿では,大規模なデータセットに対する TreeShap の計算効率を向上させるために,Fast TreeSHAP v1 と v2 を提案する。
Fast TreeShap v1はTreeShapよりも1.5倍高速で、メモリコストは変わらない。
Fast TreeShap v2はTreeShapよりも2.5倍高速で、メモリ使用量もわずかに高い。
論文 参考訳(メタデータ) (2021-09-20T21:13:23Z) - Instantaneous Grammatical Error Correction with Shallow Aggressive
Decoding [57.08875260900373]
即時文法的誤り訂正(GEC)のためのトランスフォーマーのオンライン推論効率を改善するために,Shallow Aggressive Decoding (SAD)を提案する。
SADは、計算並列性を改善するために、各ステップで1つのトークンだけを復号するのではなく、可能な限り多くのトークンを並列に復号する。
英語と中国語のGECベンチマークでの実験では、アグレッシブな復号化がオンライン推論の大幅なスピードアップをもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-09T10:30:59Z) - LightSpeech: Lightweight and Fast Text to Speech with Neural
Architecture Search [127.56834100382878]
我々は、FastSpeechに基づくより軽量で効率的なTSモデルを自動的に設計するLightSpeechを提案する。
実験の結果,提案手法により検出されたモデルは,CPU上での15倍のモデル圧縮比と6.5倍の推論高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-02-08T07:45:06Z) - Growing Deep Forests Efficiently with Soft Routing and Learned
Connectivity [79.83903179393164]
この論文は、いくつかの重要な側面で深い森林のアイデアをさらに拡張します。
我々は、ノードがハードバイナリ決定ではなく、確率的ルーティング決定、すなわちソフトルーティングを行う確率的ツリーを採用する。
MNISTデータセットの実験は、私たちの力のある深部森林が[1]、[3]よりも優れたまたは匹敵するパフォーマンスを達成できることを示しています。
論文 参考訳(メタデータ) (2020-12-29T18:05:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。