論文の概要: BASS: Batched Attention-optimized Speculative Sampling
- arxiv url: http://arxiv.org/abs/2404.15778v1
- Date: Wed, 24 Apr 2024 09:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 19:30:27.581495
- Title: BASS: Batched Attention-optimized Speculative Sampling
- Title(参考訳): BASS: 意図を最適化した投機サンプリング
- Authors: Haifeng Qian, Sujan Kumar Gonugondla, Sungsoo Ha, Mingyue Shang, Sanjay Krishna Gouda, Ramesh Nallapati, Sudipta Sengupta, Xiaofei Ma, Anoop Deoras,
- Abstract要約: 投機的復号化は、大規模言語モデルをホストする際のレイテンシとスループットを改善する強力な方法として登場した。
本稿では,バッチ化された投機的復号化システムについて述べる。
私たちのシステムは、HumanEval Pass@Firstの43%とPass@Allの61%のシーケンスを生成することができ、単一シーケンスの投機的デコーディングで実現可能なものよりもはるかに多い。
- 参考スコア(独自算出の注目度): 25.716774131268753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding has emerged as a powerful method to improve latency and throughput in hosting large language models. However, most existing implementations focus on generating a single sequence. Real-world generative AI applications often require multiple responses and how to perform speculative decoding in a batched setting while preserving its latency benefits poses non-trivial challenges. This paper describes a system of batched speculative decoding that sets a new state of the art in multi-sequence generation latency and that demonstrates superior GPU utilization as well as quality of generations within a time budget. For example, for a 7.8B-size model on a single A100 GPU and with a batch size of 8, each sequence is generated at an average speed of 5.8ms per token, the overall throughput being 1.1K tokens per second. These results represent state-of-the-art latency and a 2.15X speed-up over optimized regular decoding. Within a time budget that regular decoding does not finish, our system is able to generate sequences with HumanEval Pass@First of 43% and Pass@All of 61%, far exceeding what's feasible with single-sequence speculative decoding. Our peak GPU utilization during decoding reaches as high as 15.8%, more than 3X the highest of that of regular decoding and around 10X of single-sequence speculative decoding.
- Abstract(参考訳): 投機的復号化は、大規模言語モデルをホストする際のレイテンシとスループットを改善する強力な方法として登場した。
しかし、既存の実装のほとんどは単一のシーケンスを生成することに重点を置いている。
実世界の生成AIアプリケーションは、しばしば複数の応答と、バッチ環境で投機的復号化を実行する方法を必要とする。
本稿では、バッチ化された投機的復号化システムについて述べる。これは、マルチシーケンス生成遅延において新しい最先端の状態を設定し、GPUの優れた利用と、時間予算内での世代品質を示す。
例えば、1つのA100 GPU上の7.8Bサイズモデルとバッチサイズが8の場合、各シーケンスは平均速度5.8msで生成され、全体のスループットは毎秒1.1Kである。
これらの結果は、最先端のレイテンシと、最適化された正規デコードよりも2.15倍のスピードアップを示している。
通常のデコーディングが終わらない時間予算の中で、我々のシステムはHumanEval Pass@Firstの43%とPass@Allの61%のシーケンスを生成することができる。
復号化のピークGPU利用率は15.8%、正規復号化の最高値の3倍、単列投機復号化の約10倍に達する。
関連論文リスト
- SARATHI: Efficient LLM Inference by Piggybacking Decodes with Chunked
Prefills [9.821549185732199]
大規模言語モデル(LLM)推論は、プリフィルとデコードという2つの異なるフェーズから構成される。
デコードフェーズは、要求毎に1つのトークンを生成するため、低い計算利用率をもたらす。
Chunked-prefillsは、単一のprefillリクエストから複数のdecode-maximalバッチを構築することができる。
提案手法により,モデルおよびハードウェア間での推論性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-08-31T00:03:02Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Flover: A Temporal Fusion Framework for Efficient Autoregressive Model
Parallel Inference [3.005912820808423]
自己回帰モデル上の推論は、現在のトークンの確率分布が前のトークンに条件付けられている時間依存性を利用する。
並列に複数のリクエストを効率的に推測するための時間融合フレームワークであるFloverを提案する。
トークンレベルの並列性のオーケストレーションによって、Floverはハードウェアの最適効率を示し、システムリソースを著しく節約する。
論文 参考訳(メタデータ) (2023-05-22T20:58:09Z) - Hardware Acceleration of Neural Graphics [4.740006810824922]
従来のコンピュータグラフィックスを駆動するレンダリングおよび逆レンダリングアルゴリズムは、最近、ニューラル表現(NR)に取って代わられた。
ニューラルネットワーク(NG)はハードウェアのサポートが必要なのか?
本稿では,専用エンジンによる入力エンコーディングとカーネルを直接高速化する,スケーラブルでフレキシブルなハードウェアアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-03-10T06:44:49Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Lossless Acceleration for Seq2seq Generation with Aggressive Decoding [74.12096349944497]
アグレッシブデコーディング(Aggressive Decoding)は、セq2seq生成のための新しいデコーディングアルゴリズムである。
提案手法は, 自己回帰復号法と比較し, 同一(あるいは良好な)生成を実現することを目的としている。
複数のSeq2seqタスクにおいて、GPU上で最も人気のある6層トランスフォーマーモデル上で、攻撃的デコーディングをテストする。
論文 参考訳(メタデータ) (2022-05-20T17:59:00Z) - Speculative Decoding: Exploiting Speculative Execution for Accelerating
Seq2seq Generation [80.2267931231335]
本稿では,自己回帰(AR)デコーディングを高速化する投機的実行のアイデアを活用するための投機的デコーディング(SpecDec)を提案する。
SpecDecには2つのイノベーションがある。Spec-Drafter - 効率的なドラフトのために特別に最適化された独立モデル、Spec-Verification - ドラフトされたトークンを効率的に検証するための信頼性の高い方法である。
論文 参考訳(メタデータ) (2022-03-30T17:27:09Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - FastSeq: Make Sequence Generation Faster [20.920579109726024]
我々は,精度を損なわずにシーケンス生成を高速化するFastSeqフレームワークを開発した。
様々なモデルで広く使われているベンチマークの結果は、4-9倍の推論速度向上を示す。
FastSeqは単純な1行のコード変更で簡単に使える。
論文 参考訳(メタデータ) (2021-06-08T22:25:28Z) - Fast Interleaved Bidirectional Sequence Generation [90.58793284654692]
左右方向と左右方向を同時に生成するデコーダを提案する。
一方向デコードのための標準アーキテクチャを簡単に双方向デコーダに変換することができることを示す。
我々のインターリーブ双方向デコーダ (IBDecoder) は標準変換器のモデル単純性と訓練効率を保っている。
論文 参考訳(メタデータ) (2020-10-27T17:38:51Z) - Consistent Multiple Sequence Decoding [36.46573114422263]
一貫性のある多重シーケンスデコーディングアーキテクチャを導入する。
このアーキテクチャは任意の数のシーケンスを一貫した同時復号化を可能にする。
重回帰画像キャプションにおける一貫した多重シーケンスデコーダの有効性を示す。
論文 参考訳(メタデータ) (2020-04-02T00:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。