論文の概要: Speculative Decoding via Early-exiting for Faster LLM Inference with Thompson Sampling Control Mechanism
- arxiv url: http://arxiv.org/abs/2406.03853v1
- Date: Thu, 6 Jun 2024 08:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 15:49:43.754382
- Title: Speculative Decoding via Early-exiting for Faster LLM Inference with Thompson Sampling Control Mechanism
- Title(参考訳): トンプソンサンプリング制御機構を用いた高速LPM推論のための初期出力による投機的復号化
- Authors: Jiahao Liu, Qifan Wang, Jingang Wang, Xunliang Cai,
- Abstract要約: そこで本研究では,非損失加速を用いたEarly-Exiting Speculative Decoding (EESD) という新しい手法を提案する。
EESDは、大きな言語モデル(LLM)のセグメントを使用してドラフトトークンを生成し、最初のN層の後、初期出力構造を取り入れている。
提案手法では,従来の手法と比較して,トークンの復号化速度が著しく向上していることが示されている。
- 参考スコア(独自算出の注目度): 35.7077090639665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent advancements in large language models (LLMs) have been extraordinary, yet the escalating inference costs associated with them present challenges in real-world applications. To address these challenges, we propose a novel approach called Early-exiting Speculative Decoding (EESD) with lossless acceleration. Specifically, EESD utilizes a segment of the LLM to generate draft tokens, incorporating Early-exiting structures after the first N layers. To enhance the quality of draft tokens, a self-distillation method is integrated. This early-exiting design not only reduces deployment and training costs but also significantly accelerates the token generation speed. Moreover, we introduce a novel sampling mechanism that leverages Thompson Sampling to regulate the generation processes, automatically determining the quantity of draft tokens in each round. The original LLM is then employed to validate these draft tokens through a single forward pass, and thus guarantees that the final output text maintains a distribution consistent with vanilla auto-regressive decoding. The experimental results on both 13B and 70B models demonstrate that our approach decodes tokens at a markedly accelerated rate compared to prior methods, showing the effectiveness of our approach.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は異例であるが、現実のアプリケーションにおいて、それらに関連する推論コストが増大している。
これらの課題に対処するため、我々は、損失の少ないアクセラレーションを持つEarly-Exiting Speculative Decoding (EESD)と呼ばれる新しいアプローチを提案する。
具体的には、EESD は LLM のセグメントを使用してドラフトトークンを生成し、最初の N 層の後、初期出力構造を取り入れている。
ドラフトトークンの品質を高めるために、自己蒸留法を統合する。
このアーリーエグジットデザインは、デプロイメントとトレーニングコストを削減するだけでなく、トークン生成速度を大幅に加速する。
さらに,トンプソンサンプリングを利用して生成過程を制御し,各ラウンドにおけるドラフトトークンの量を自動決定する新しいサンプリング機構を導入する。
元の LLM は、これらのドラフトトークンを単一のフォワードパスで検証するために使用され、最終的な出力テキストがバニラ自動回帰復号と整合した分布を維持することを保証している。
13Bモデルと70Bモデルの両方の実験結果から,従来の手法と比較して,トークンの復号化速度が著しく向上していることが示され,提案手法の有効性が示された。
関連論文リスト
- Boosting Lossless Speculative Decoding via Feature Sampling and Partial Alignment Distillation [8.046705062670096]
損失のない投機的復号化は、ターゲットとする大言語モデル推論を加速する。
FSPAD (Feature Sampling and partial Alignment Distillation for Lossless Speculative Decoding) を提案する。
我々の実験は、ヴィクナ級数とLLaMA3-インストラクト級数で最大かつ最小のモデルにおいて、欲求と非欲求デコーディングの両方を含む。
論文 参考訳(メタデータ) (2024-08-28T06:28:01Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [59.17158389902231]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。
典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。
微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:20:39Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - Generation Meets Verification: Accelerating Large Language Model Inference with Smart Parallel Auto-Correct Decoding [11.832919020149891]
本研究の目的は,数十億のパラメータを持つ大規模言語モデル(LLM)の推論速度を高速化することである。
textbfSmart textbfParallel textbfAuto-textbfCorrect dtextbfEcoding (SPACE)を提案する。
論文 参考訳(メタデータ) (2024-02-19T03:39:10Z) - Draft & Verify: Lossless Large Language Model Acceleration via Self-Speculative Decoding [25.03122689338891]
本稿では,大規模言語モデルの高速化を目的とした新しい推論手法である自己推論復号法を提案する。
提案手法では、追加のニューラルネットワークトレーニングや、追加のメモリフットプリントを必要としない。
LLaMA-2とその変種によるベンチマークでは、最大1.99$times$まで高速化された。
論文 参考訳(メタデータ) (2023-09-15T05:34:32Z) - FSR: Accelerating the Inference Process of Transducer-Based Models by
Applying Fast-Skip Regularization [72.9385528828306]
典型的なトランスデューサモデルは、現在の音響状態に条件付き出力シーケンスをデコードします。
予測結果に含まれる空白のトークンの数は、すべてのトークンの90%近くを占める。
本稿では,トランスデューサが予測する空白位置とCTCモデルが予測する空白位置を一致させようとする高速スキップ正規化法を提案する。
論文 参考訳(メタデータ) (2021-04-07T03:15:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。