論文の概要: Recursive Speculative Decoding: Accelerating LLM Inference via Sampling
Without Replacement
- arxiv url: http://arxiv.org/abs/2402.14160v2
- Date: Tue, 5 Mar 2024 06:55:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 23:48:20.067313
- Title: Recursive Speculative Decoding: Accelerating LLM Inference via Sampling
Without Replacement
- Title(参考訳): Recursive Speculative Decoding: 置き換えのないサンプリングによるLCM推論の高速化
- Authors: Wonseok Jeon, Mukul Gagrani, Raghavv Goel, Junyoung Park, Mingu Lee,
Christopher Lott
- Abstract要約: 投機的復号法(英: Speculative decoding)は、大規模言語モデルの推論・加速度法である。
近年の作業では、草稿の伐採によってこの方法が進歩している。
再帰的投機的復号法(Recursive Speculative Decoding:RSD)を提案する。
- 参考スコア(独自算出の注目度): 11.91629418177851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding is an inference-acceleration method for large language
models (LLMs) where a small language model generates a draft-token sequence
which is further verified by the target LLM in parallel. Recent works have
advanced this method by establishing a draft-token tree, achieving superior
performance over a single-sequence speculative decoding. However, those works
independently generate tokens at each level of the tree, not leveraging the
tree's entire diversifiability. Besides, their empirical superiority has been
shown for fixed length of sequences, implicitly granting more computational
resource to LLM for the tree-based methods. None of the existing works has
conducted empirical studies with fixed target computational budgets despite its
importance to resource-bounded devices. We present Recursive Speculative
Decoding (RSD), a novel tree-based method that samples draft tokens without
replacement and maximizes the diversity of the tree. During RSD's drafting, the
tree is built by either Gumbel-Top-$k$ trick that draws tokens without
replacement in parallel or Stochastic Beam Search that samples sequences
without replacement while early-truncating unlikely draft sequences and
reducing the computational cost of LLM. We empirically evaluate RSD with Llama
2 and OPT models, showing that RSD outperforms the baseline methods,
consistently for fixed draft sequence length and in most cases for fixed
computational budgets at LLM.
- Abstract(参考訳): 投機的復号化(英: Speculative decoding)は、小言語モデルが目標LLMにより並列に検証されるドラフトトケンシーケンスを生成する大言語モデル(LLM)の推論高速化手法である。
近年の研究では, 単一系列の投機的復号化よりも優れた性能を達成し, ドラフト・トケン・ツリーの確立によってこの手法が進歩している。
しかし、これらは独立して木の各レベルでトークンを生成し、木全体の多様性を活用できない。
さらに、その経験的優位性は配列の固定長に対して示され、木に基づく手法では LLM により多くの計算資源を暗黙的に与えている。
既存の研究は、リソースバウンドデバイスの重要性にもかかわらず、固定目標の計算予算で実証的な研究を行っていない。
本稿では,新規なツリーベース手法である再帰的投機的復号法(rsd)を提案する。
rsdのドラフト作成の間、木は並列に置き換えられずにトークンを描画するgumbel-top-$k$のトリックか、早期に検出されそうにないドラフトシーケンスとllmの計算コストを減少させる確率的ビーム探索によって構築される。
Llama 2 と OPT モデルを用いて RSD を実験的に評価した結果,RSD は固定のドラフトシーケンス長や LLM の固定的な計算予算において,ベースライン法よりも優れていた。
関連論文リスト
- ProPD: Dynamic Token Tree Pruning and Generation for LLM Parallel
Decoding [12.449023969197684]
ProPDは動的トークンツリーのプルーニングと生成に基づく効率的な並列デコードフレームワークである。
ProPD は既存の復号アルゴリズムを 1.1-3.2x で一貫的に上回っている。
論文 参考訳(メタデータ) (2024-02-21T02:51:07Z) - Tree-Planner: Efficient Close-loop Task Planning with Large Language
Models [65.16099990195016]
Tree-Plannerは、大きな言語モデルでタスクプランニングを3つの異なるフェーズに再構成する。
Tree-Plannerは高い効率を維持しながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:59:50Z) - Alphazero-like Tree-Search can Guide Large Language Model Decoding and
Training [37.79247073276239]
ToT(Tree-of-Thought)やRAP(Reasoning via Planning)といった最近の研究は、LLMの推論能力を強化することを目的としている。
LLMのためのAlphaZeroライクな木探索学習フレームワーク(TS-LLM)を提案する。
学習価値関数を用いた木探索がLLM復号を導出する方法を示す。
論文 参考訳(メタデータ) (2023-09-29T12:20:19Z) - SpecInfer: Accelerating Generative Large Language Model Serving with
Tree-based Speculative Inference and Verification [13.446126267799965]
SpecInferは、木に基づく投機的推測と検証を扱う生成的大規模言語モデル(LLM)を高速化するシステムである。
トークンツリーで表される全ての候補トークンシーケンスの正当性を、新しいツリーベースの並列復号機構を用いてLLMに対して並列に検証する。
論文 参考訳(メタデータ) (2023-05-16T20:12:59Z) - Machine Learning-Aided Efficient Decoding of Reed-Muller Subcodes [59.55193427277134]
Reed-Muller (RM) 符号は、一般的なバイナリインプットメモリレス対称チャネルの容量を達成する。
RM符号は制限されたレートのみを許容する。
効率的なデコーダは、RM符号に対して有限長で利用可能である。
論文 参考訳(メタデータ) (2023-01-16T04:11:14Z) - RLET: A Reinforcement Learning Based Approach for Explainable QA with
Entailment Trees [47.745218107037786]
本稿では,強化学習に基づくEntailment Tree生成フレームワークであるRLETを提案する。
RLETは文の選択と推論生成モジュールによる単一ステップ推論を反復的に行う。
EntailmentBankデータセットの3つの設定の実験では、RLフレームワークを使用することの強みが示されている。
論文 参考訳(メタデータ) (2022-10-31T06:45:05Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z) - Robustifying Algorithms of Learning Latent Trees with Vector Variables [92.18777020401484]
Recursive Grouping (RG) と Chow-Liu Recursive Grouping (CLRG) のサンプル複雑性について述べる。
RG,CLRG,Neighbor Joining (NJ) およびSpectral NJ (SNJ) をトラッピングした内積を用いて強化する。
我々は、潜在木の構造学習において、最初の既知のインスタンス依存の不合理性の結果を導出する。
論文 参考訳(メタデータ) (2021-06-02T01:37:52Z) - Recursive Top-Down Production for Sentence Generation with Latent Trees [77.56794870399288]
自然および合成言語に対する文脈自由文法の生成特性をモデル化する。
潜伏二分木構造にN$の葉を持つ動的プログラミングアルゴリズムを提案する。
また,Multi30kデータセットを用いたドイツ語と英語の翻訳実験を行った。
論文 参考訳(メタデータ) (2020-10-09T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。