論文の概要: Unlocking Efficiency in Large Language Model Inference: A Comprehensive
Survey of Speculative Decoding
- arxiv url: http://arxiv.org/abs/2401.07851v1
- Date: Mon, 15 Jan 2024 17:26:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 16:23:30.208536
- Title: Unlocking Efficiency in Large Language Model Inference: A Comprehensive
Survey of Speculative Decoding
- Title(参考訳): 大規模言語モデル推論における解錠効率:投機的復号化に関する総合的な調査
- Authors: Heming Xia, Zhe Yang, Qingxiu Dong, Peiyi Wang, Yongqi Li, Tao Ge,
Tianyu Liu, Wenjie Li, Zhifang Sui
- Abstract要約: 投機的デコーディングは、LLM(Large Language Models)推論のための新しいデコーディングパラダイムとして登場した。
復号処理の各ステップにおいて、この手法はまずいくつかの将来のトークンを効率的にドラフトし、それらを並列に検証する。
自己回帰デコーディングとは異なり、投機的デコーディングはステップ毎に複数のトークンを同時にデコーディングし、推論を加速させる。
- 参考スコア(独自算出の注目度): 48.23348694701169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To mitigate the high inference latency stemming from autoregressive decoding
in Large Language Models (LLMs), Speculative Decoding has emerged as a novel
decoding paradigm for LLM inference. In each decoding step, this method first
efficiently drafts several future tokens and then verifies them in parallel.
Unlike autoregressive decoding, Speculative Decoding facilitates the
simultaneous decoding of multiple tokens per step, thereby accelerating
inference. This paper presents a comprehensive overview and analysis of this
promising decoding paradigm. We begin by providing a formal definition and
formulation of Speculative Decoding. Then, we organize in-depth discussions on
its key facets, including current leading techniques, the challenges faced, and
potential future directions in this field. We aim for this work to serve as a
catalyst for further research on Speculative Decoding, ultimately contributing
to more efficient LLM inference.
- Abstract(参考訳): 大規模言語モデル(LLM)における自己回帰復号化に起因する高い推論遅延を軽減するため、投機的復号化はLLM推論の新しい復号パラダイムとして登場した。
各デコーディングステップにおいて、このメソッドは、まずいくつかの将来のトークンを効率的にドラフトし、それからそれらを並列に検証する。
自己回帰デコーディングとは異なり、投機的デコーディングはステップ毎に複数のトークンを同時にデコーディングし、推論を加速させる。
本稿では,このデコーディングパラダイムの包括的概要と解析について述べる。
まず、形式的な定義と投機的復号の定式化を提供することから始める。
そして,その重要な課題について,現在の先導技術,直面する課題,この分野の今後の方向性など,詳細な議論をまとめる。
本研究は、投機的復号化のさらなる研究の触媒となることを目指しており、最終的にはより効率的なLLM推論に寄与する。
関連論文リスト
- Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [76.30313058201182]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Contrastive Decoding Improves Reasoning in Large Language Models [55.16503283583076]
コントラストデコーディングは,様々な推論タスクにおいて,グリージーデコーディングよりもアウト・オブ・ボックスの大幅な改善を実現することを示す。
本稿では,LLaMA-65BがHellaSwag Commonsense reasoning benchmark上でLLaMA 2, GPT-3.5, PaLM 2-Lより優れていることを示す。
論文 参考訳(メタデータ) (2023-09-17T00:29:32Z) - Predictive Pipelined Decoding: A Compute-Latency Trade-off for Exact LLM
Decoding [10.075251895124808]
予測パイプラインデコーディング(英: Predictive Pipelined Decoding、PPD)とは、大規模言語モデル(LLM)におけるグレディデコーディングを高速化する手法である。
従来の戦略とは異なり、PDDはその後のトークン復号の開始を並列化するために追加の計算資源を使用する。
論文 参考訳(メタデータ) (2023-07-12T04:28:41Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z) - A Syntax-Guided Multi-Task Learning Approach for Turducken-Style Code
Generation [19.489202790935902]
本稿では,構文誘導型マルチタスク学習手法TurduckenGenを提案する。
具体的には、まず最初に型情報をコードトークンに明示的に付加し、構文制約の表現をキャプチャします。
次に,構文制約表現を用いたコード生成を補助タスクとして形式化し,モデルの構文制約学習を可能にする。
論文 参考訳(メタデータ) (2023-03-09T06:22:07Z) - Language Model Decoding as Likelihood-Utility Alignment [54.70547032876017]
モデルの有効性がタスク固有の実用性の概念とどのように一致しているかについて、暗黙の仮定に基づいて、デコード戦略をグループ化する分類法を導入する。
具体的には、様々なタスクの集合における予測の可能性と有用性の相関を解析することにより、提案された分類を裏付ける最初の実証的証拠を提供する。
論文 参考訳(メタデータ) (2022-10-13T17:55:51Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。