論文の概要: Beyond the Speculative Game: A Survey of Speculative Execution in Large Language Models
- arxiv url: http://arxiv.org/abs/2404.14897v1
- Date: Tue, 23 Apr 2024 10:25:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 14:31:13.205710
- Title: Beyond the Speculative Game: A Survey of Speculative Execution in Large Language Models
- Title(参考訳): 投機的ゲームを超えて:大規模言語モデルにおける投機的実行に関する調査
- Authors: Chen Zhang, Zhuorui Liu, Dawei Song,
- Abstract要約: 投機的実行は、textitdraft-then-verifyスタイルでLLMデコードに導入される。
コストのかかる推論を並列化することにより、復号速度を大幅に向上させることができる。
LLMにおける投機的実行の文献をレビューし、統一する最初の調査論文を提示する。
- 参考スコア(独自算出の注目度): 9.121458241884444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasingly giant scales of (causal) large language models (LLMs), the inference efficiency comes as one of the core concerns along the improved performance. In contrast to the memory footprint, the latency bottleneck seems to be of greater importance as there can be billions of requests to a LLM (e.g., GPT-4) per day. The bottleneck is mainly due to the autoregressive innateness of LLMs, where tokens can only be generated sequentially during decoding. To alleviate the bottleneck, the idea of speculative execution, which originates from the field of computer architecture, is introduced to LLM decoding in a \textit{draft-then-verify} style. Under this regime, a sequence of tokens will be drafted in a fast pace by utilizing some heuristics, and then the tokens shall be verified in parallel by the LLM. As the costly sequential inference is parallelized, LLM decoding speed can be significantly boosted. Driven by the success of LLMs in recent couple of years, a growing literature in this direction has emerged. Yet, there lacks a position survey to summarize the current landscape and draw a roadmap for future development of this promising area. To meet this demand, we present the very first survey paper that reviews and unifies literature of speculative execution in LLMs (e.g., blockwise parallel decoding, speculative decoding, etc.) in a comprehensive framework and a systematic taxonomy. Based on the taxonomy, we present a critical review and comparative analysis of the current arts. Finally we highlight various key challenges and future directions to further develop the area.
- Abstract(参考訳): 巨大な(因果的な)大規模言語モデル(LLM)の規模が拡大するにつれ、推論効率は、パフォーマンス改善に伴う中核的な懸念の1つとなる。
メモリフットプリントとは対照的に、LLM (eg , GPT-4) に対する数十億の要求があるため、レイテンシのボトルネックはより重要であるように思われる。
ボトルネックは主にLLMの自己回帰的自然性によるもので、トークンは復号時にのみ順次生成できる。
ボトルネックを軽減するため、コンピュータアーキテクチャの分野から派生した投機的実行の概念が、textit{draft-then-verify}スタイルでLLM復号化に導入された。
この体制下では、トークンの列は、いくつかのヒューリスティックを利用して高速なペースで起草され、その後、トークンはLCMによって並列に検証される。
コストのかかるシーケンシャル推論が並列化されるため、LCM復号速度を大幅に向上させることができる。
近年のLSMの成功によって、この方向の文献が増大しています。
しかし、現在の状況を要約し、この将来的な領域の開発のためのロードマップを描くようなポジションサーベイは欠如している。
この要求を満たすため、我々はLLMにおける投機的実行の文献(ブロックワイド並列復号、投機的復号など)を総合的な枠組みと体系的な分類でレビューし、統一する最初の調査論文を提示する。
分類学に基づいて,現代美術の批判的レビューと比較分析を行う。
最後に、この領域をさらに発展させるために、様々な重要な課題と今後の方向性を強調します。
関連論文リスト
- LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Unlocking Efficiency in Large Language Model Inference: A Comprehensive
Survey of Speculative Decoding [48.23348694701169]
投機的デコーディングは、LLM(Large Language Models)推論のための新しいデコーディングパラダイムとして登場した。
復号処理の各ステップにおいて、この手法はまず、複数の将来のトークンを効率的にドラフトし、それらを並列に検証する。
本稿では,この有望な復号化パラダイムの概観と解析について述べる。
論文 参考訳(メタデータ) (2024-01-15T17:26:50Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark
for Large Language Models [82.27118457984812]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench 上での10 つの LLM の評価により,LLM の弱さを強調し,今後の研究への道のりを示唆する。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z) - Benchmarking and Explaining Large Language Model-based Code Generation:
A Causality-Centric Approach [12.214585409361126]
大規模言語モデル(LLM)ベースのコード生成は複雑で強力なブラックボックスモデルである。
本稿では,プロンプトと生成されたコードの因果グラフに基づく新しい表現を提案する。
我々は,12以上の迅速な調整戦略で3つの人気のあるLCMを研究することで,我々のフレームワークが提供できる洞察について説明する。
論文 参考訳(メタデータ) (2023-10-10T14:56:26Z) - LLMCad: Fast and Scalable On-device Large Language Model Inference [11.103824752113148]
テキスト生成や質問応答といった生成タスクは、モバイルアプリケーションの領域において重要な位置を占める。
現在、これらの生成タスクの実行は、大規模言語モデル(LLM)に大きく依存している。
本稿では,効率的な生成自然言語処理(NLP)タスク用に設計されたオンデバイス推論エンジンであるLLMCadを紹介する。
論文 参考訳(メタデータ) (2023-09-08T10:44:19Z) - LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language
Models [88.19189563759942]
この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。
本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
パラメータの更新がないため、2Kまたは4Kのセグメントで事前訓練されたLLMは、パープレキシティを維持しながら最大2億の入力を一般化することができる。
論文 参考訳(メタデータ) (2023-08-30T16:47:51Z) - Skeleton-of-Thought: Prompting LLMs for Efficient Parallel Generation [23.65270067167911]
本研究の目的は,大規模言語モデル(LLM)のエンドツーエンド生成レイテンシの削減である。
そこで我々は,まずLSMを誘導して回答のスケルトンを生成し,次に並列API呼び出しやバッチデコードを行い,各スケルトン点の内容を並列に処理するSkeleton-of-Thought (SoT)を提案する。
SoTは推論効率をデータ中心で最適化するための最初の試みであり、言語で回答構造を明示的に計画することで高品質な回答を引き出す可能性を示している。
論文 参考訳(メタデータ) (2023-07-28T06:31:34Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。