論文の概要: Beyond the Speculative Game: A Survey of Speculative Execution in Large Language Models
- arxiv url: http://arxiv.org/abs/2404.14897v1
- Date: Tue, 23 Apr 2024 10:25:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 14:31:13.205710
- Title: Beyond the Speculative Game: A Survey of Speculative Execution in Large Language Models
- Title(参考訳): 投機的ゲームを超えて:大規模言語モデルにおける投機的実行に関する調査
- Authors: Chen Zhang, Zhuorui Liu, Dawei Song,
- Abstract要約: 投機的実行は、textitdraft-then-verifyスタイルでLLMデコードに導入される。
コストのかかる推論を並列化することにより、復号速度を大幅に向上させることができる。
LLMにおける投機的実行の文献をレビューし、統一する最初の調査論文を提示する。
- 参考スコア(独自算出の注目度): 9.121458241884444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasingly giant scales of (causal) large language models (LLMs), the inference efficiency comes as one of the core concerns along the improved performance. In contrast to the memory footprint, the latency bottleneck seems to be of greater importance as there can be billions of requests to a LLM (e.g., GPT-4) per day. The bottleneck is mainly due to the autoregressive innateness of LLMs, where tokens can only be generated sequentially during decoding. To alleviate the bottleneck, the idea of speculative execution, which originates from the field of computer architecture, is introduced to LLM decoding in a \textit{draft-then-verify} style. Under this regime, a sequence of tokens will be drafted in a fast pace by utilizing some heuristics, and then the tokens shall be verified in parallel by the LLM. As the costly sequential inference is parallelized, LLM decoding speed can be significantly boosted. Driven by the success of LLMs in recent couple of years, a growing literature in this direction has emerged. Yet, there lacks a position survey to summarize the current landscape and draw a roadmap for future development of this promising area. To meet this demand, we present the very first survey paper that reviews and unifies literature of speculative execution in LLMs (e.g., blockwise parallel decoding, speculative decoding, etc.) in a comprehensive framework and a systematic taxonomy. Based on the taxonomy, we present a critical review and comparative analysis of the current arts. Finally we highlight various key challenges and future directions to further develop the area.
- Abstract(参考訳): 巨大な(因果的な)大規模言語モデル(LLM)の規模が拡大するにつれ、推論効率は、パフォーマンス改善に伴う中核的な懸念の1つとなる。
メモリフットプリントとは対照的に、LLM (eg , GPT-4) に対する数十億の要求があるため、レイテンシのボトルネックはより重要であるように思われる。
ボトルネックは主にLLMの自己回帰的自然性によるもので、トークンは復号時にのみ順次生成できる。
ボトルネックを軽減するため、コンピュータアーキテクチャの分野から派生した投機的実行の概念が、textit{draft-then-verify}スタイルでLLM復号化に導入された。
この体制下では、トークンの列は、いくつかのヒューリスティックを利用して高速なペースで起草され、その後、トークンはLCMによって並列に検証される。
コストのかかるシーケンシャル推論が並列化されるため、LCM復号速度を大幅に向上させることができる。
近年のLSMの成功によって、この方向の文献が増大しています。
しかし、現在の状況を要約し、この将来的な領域の開発のためのロードマップを描くようなポジションサーベイは欠如している。
この要求を満たすため、我々はLLMにおける投機的実行の文献(ブロックワイド並列復号、投機的復号など)を総合的な枠組みと体系的な分類でレビューし、統一する最初の調査論文を提示する。
分類学に基づいて,現代美術の批判的レビューと比較分析を行う。
最後に、この領域をさらに発展させるために、様々な重要な課題と今後の方向性を強調します。
関連論文リスト
- Closer Look at Efficient Inference Methods: A Survey of Speculative Decoding [1.3479499607624648]
投機的復号化は、ドラフトと検証という2段階のフレームワークを導入することでボトルネックに対処する。
より小さく効率的なモデルが予備のドラフトを生成し、より大きくより洗練されたモデルによって洗練される。
本稿では、投機的復号法を包括的に調査し、それらをドラフト中心およびモデル中心のアプローチに分類する。
論文 参考訳(メタデータ) (2024-11-20T09:46:30Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [53.58854856174773]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。
トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。
既存の列車不要の手法を30%上回り、訓練方法さえ25%上回っている。
論文 参考訳(メタデータ) (2024-08-16T12:20:56Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Benchmarking and Explaining Large Language Model-based Code Generation:
A Causality-Centric Approach [12.214585409361126]
大規模言語モデル(LLM)ベースのコード生成は複雑で強力なブラックボックスモデルである。
本稿では,プロンプトと生成されたコードの因果グラフに基づく新しい表現を提案する。
我々は,12以上の迅速な調整戦略で3つの人気のあるLCMを研究することで,我々のフレームワークが提供できる洞察について説明する。
論文 参考訳(メタデータ) (2023-10-10T14:56:26Z) - LLMCad: Fast and Scalable On-device Large Language Model Inference [11.103824752113148]
テキスト生成や質問応答といった生成タスクは、モバイルアプリケーションの領域において重要な位置を占める。
現在、これらの生成タスクの実行は、大規模言語モデル(LLM)に大きく依存している。
本稿では,効率的な生成自然言語処理(NLP)タスク用に設計されたオンデバイス推論エンジンであるLLMCadを紹介する。
論文 参考訳(メタデータ) (2023-09-08T10:44:19Z) - Skeleton-of-Thought: Prompting LLMs for Efficient Parallel Generation [23.65270067167911]
本研究の目的は,大規模言語モデル(LLM)のエンドツーエンド生成レイテンシの削減である。
そこで我々は,まずLSMを誘導して回答のスケルトンを生成し,次に並列API呼び出しやバッチデコードを行い,各スケルトン点の内容を並列に処理するSkeleton-of-Thought (SoT)を提案する。
SoTは推論効率をデータ中心で最適化するための最初の試みであり、言語で回答構造を明示的に計画することで高品質な回答を引き出す可能性を示している。
論文 参考訳(メタデータ) (2023-07-28T06:31:34Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。