論文の概要: Clover: Regressive Lightweight Speculative Decoding with Sequential Knowledge
- arxiv url: http://arxiv.org/abs/2405.00263v1
- Date: Wed, 1 May 2024 00:46:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 16:47:02.558217
- Title: Clover: Regressive Lightweight Speculative Decoding with Sequential Knowledge
- Title(参考訳): Clover: シーケンシャルな知識を備えた回帰軽量投機的デコーディング
- Authors: Bin Xiao, Chunan Shi, Xiaonan Nie, Fan Yang, Xiangwei Deng, Lei Su, Weipeng Chen, Bin Cui,
- Abstract要約: 並列復号処理にシーケンシャルな知識を統合する新しい投機的復号アルゴリズムであるCloverを提案する。
クローバーは、バイチュアン=スモールでは91%、バイチュアン=ラージュでは146%でベースラインを上回っている。
- 参考スコア(独自算出の注目度): 24.203554078434365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) suffer from low efficiency as the mismatch between the requirement of auto-regressive decoding and the design of most contemporary GPUs. Specifically, billions to trillions of parameters must be loaded to the GPU cache through its limited memory bandwidth for computation, but only a small batch of tokens is actually computed. Consequently, the GPU spends most of its time on memory transfer instead of computation. Recently, parallel decoding, a type of speculative decoding algorithms, is becoming more popular and has demonstrated impressive efficiency improvement in generation. It introduces extra decoding heads to large models, enabling them to predict multiple subsequent tokens simultaneously and verify these candidate continuations in a single decoding step. However, this approach deviates from the training objective of next token prediction used during pre-training, resulting in a low hit rate for candidate tokens. In this paper, we propose a new speculative decoding algorithm, Clover, which integrates sequential knowledge into the parallel decoding process. This enhancement improves the hit rate of speculators and thus boosts the overall efficiency. Clover transmits the sequential knowledge from pre-speculated tokens via the Regressive Connection, then employs an Attention Decoder to integrate these speculated tokens. Additionally, Clover incorporates an Augmenting Block that modifies the hidden states to better align with the purpose of speculative generation rather than next token prediction. The experiment results demonstrate that Clover outperforms the baseline by up to 91% on Baichuan-Small and 146% on Baichuan-Large, respectively, and exceeds the performance of the previously top-performing method, Medusa, by up to 37% on Baichuan-Small and 57% on Baichuan-Large, respectively.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自動回帰復号法と現代のほとんどのGPUの設計のミスマッチとして、低効率に悩まされている。
具体的には、数億から数兆のパラメータが、計算のために限られたメモリ帯域を通してGPUキャッシュにロードされなければならないが、実際に計算されるトークンはわずかである。
その結果、GPUは計算ではなく、ほとんどの時間をメモリ転送に費やしている。
近年,投機的復号法の一種である並列復号法が普及し,生成効率が著しく向上している。
大規模なモデルに余分なデコードヘッドを導入し、複数のトークンを同時に予測し、これら候補の継続を単一のデコードステップで検証できるようにする。
しかし,本手法は,事前学習時に使用する次のトークン予測の学習目標から逸脱し,候補トークンのヒット率を低くする。
本稿では,並列復号処理に逐次的知識を統合する新しい投機的復号アルゴリズムであるCloverを提案する。
この強化により、投機器のヒット率が向上し、全体的な効率が向上する。
CloverはRegressive Connectionを通じて事前に規定されたトークンからシーケンシャルな知識を送信し、その後、アテンションデコーダを使用してこれらの推測されたトークンを統合する。
さらにCloverにはAugmenting Blockが組み込まれており、隠れた状態を修正して、次のトークン予測よりも投機生成の目的に適合するようにしている。
実験の結果,クロバーはバイチュアン・スモールでは91%,バイチュアン・ラージュでは146%,バイチュアン・スモールでは37%,バイチュアン・ラージュでは57%であった。
関連論文リスト
- FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Clover-2: Accurate Inference for Regressive Lightweight Speculative Decoding [8.046705062670096]
レグレッシブ・ライトウェイトな投機的復号化は、テキスト生成タスクにおける顕著な効率改善のために注目を集めている。
Clover-2は、RNNベースのドラフトモデルであり、アテンションデコーダ層モデルと同等の精度を達成するように設計されている。
論文 参考訳(メタデータ) (2024-08-01T03:43:32Z) - Let the Code LLM Edit Itself When You Edit the Code [50.46536185784169]
underlinetextbfPositional textbfIntegrity textbfEncoding (PIE)
PIEは、標準的な完全再計算手法に比べて計算オーバーヘッドを85%以上削減する。
その結果、PIEは計算オーバーヘッドを標準の完全再計算手法に比べて85%以上削減することを示した。
論文 参考訳(メタデータ) (2024-07-03T14:34:03Z) - EMS-SD: Efficient Multi-sample Speculative Decoding for Accelerating Large Language Models [40.651650382105636]
Vanillaメソッドは、サンプル間で新しいトークンの数が一貫していることを保証するために、パディングトークンを追加する。
本稿では,メモリや計算のオーバーヘッドを増大させることなく,異なるサンプルで受け入れられる不整合トークンの問題を解決する手法を提案する。
提案手法は, パディングトークンを追加することなく, 異なるサンプルの予測トークンが矛盾する状況に対処できる。
論文 参考訳(メタデータ) (2024-05-13T08:24:21Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - SkipDecode: Autoregressive Skip Decoding with Batching and Caching for
Efficient LLM Inference [17.947904697850433]
バッチ推論とKeyValueキャッシュのためのトークンレベルの早期終了メソッドであるSkipDecodeを提案する。
これは、各シーケンス位置のバッチ内の各トークンに対して特異レベル出口を設定することで、以前の制約を克服する。
また、イグジットポイントの単調な減少を保証するため、前のトークンに対してKVキャッシュを再コンパイルする必要がなくなる。
論文 参考訳(メタデータ) (2023-07-05T19:59:09Z) - Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing
Important Tokens [65.4435926060951]
本稿では,超長周期の変換器の効率を,各層でより小さな表現に圧縮することで向上することを提案する。
我々のアルゴリズムは効率的であるだけでなく(4Kと16Kのベースラインに比べて3倍以上の効率向上を達成する)、多数のタスクで競合/ベターパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-05-07T10:32:18Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。