論文の概要: Break the Sequential Dependency of LLM Inference Using Lookahead
Decoding
- arxiv url: http://arxiv.org/abs/2402.02057v1
- Date: Sat, 3 Feb 2024 06:37:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 22:43:08.470930
- Title: Break the Sequential Dependency of LLM Inference Using Lookahead
Decoding
- Title(参考訳): Lookahead decoding を用いたLLM推論の逐次依存性の分解
- Authors: Yichao Fu, Peter Bailis, Ion Stoica, Hao Zhang
- Abstract要約: Lookahead decodingは、大規模言語モデル(LLM)のための正確な並列デコーディングアルゴリズムである。
実装により,MT-benchでは1.8倍,コード補完タスクでは4倍まで高速に自動回帰復号を行うことができる。
- 参考スコア(独自算出の注目度): 27.87483106859749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive decoding of large language models (LLMs) is memory bandwidth
bounded, resulting in high latency and significant wastes of the parallel
processing power of modern accelerators. Existing methods for accelerating LLM
decoding often require a draft model (e.g., speculative decoding), which is
nontrivial to obtain and unable to generalize. In this paper, we introduce
Lookahead decoding, an exact, parallel decoding algorithm that accelerates LLM
decoding without needing auxiliary models or data stores. It allows trading
per-step log(FLOPs) to reduce the number of total decoding steps, is more
parallelizable on single or multiple modern accelerators, and is compatible
with concurrent memory-efficient attention (e.g., FlashAttention). Our
implementation of Lookahead decoding can speed up autoregressive decoding by up
to 1.8x on MT-bench and 4x with strong scaling on multiple GPUs in code
completion tasks. Our code is avialable at
https://github.com/hao-ai-lab/LookaheadDecoding
- Abstract(参考訳): 大規模言語モデル(LLM)の自己回帰復号化はメモリ帯域幅が制限されているため、現代のアクセラレーターの並列処理能力は高いレイテンシとかなりの無駄となる。
LLMデコーディングを高速化する既存の方法は、しばしばドラフトモデル(投機的デコーディングなど)を必要とする。
本稿では,補助モデルやデータストアを必要とせず,llm復号を高速化する並列復号アルゴリズムであるlookahead decodingを提案する。
ステップ毎のログ(flops)をトレーディングすることで、デコードステップ全体の数を削減し、シングルまたは複数のアクセラレータでより並列化可能で、並行メモリ効率の良い注意(フラッシュアテンションなど)と互換性がある。
Lookaheadデコーディングの実装により,MT-benchでは1.8倍,コード補完タスクでは4倍の高速化を実現した。
私たちのコードはhttps://github.com/hao-ai-lab/LookaheadDecodingで利用可能です。
関連論文リスト
- Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding [16.66039039507951]
大規模言語モデル(LLM)は、実際にはユビキタスなものとなり、翻訳、要約、命令の追従といった生成タスクに広く利用されている。
本稿では,異なるサイズの言語モデルを組み合わせて,自己回帰復号化の効率を高めるハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T18:59:28Z) - Ouroboros: Speculative Decoding with Large Model Enhanced Drafting [75.34417163859018]
我々は,大規模言語モデルの検証プロセスから句候補プールを構築するOuroborosを紹介した。
Ouroborosは、ルックアヘッドの復号化や投機的復号化と比較して、最大1.9倍と2.8倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-02-21T11:31:28Z) - Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads
to Answers Faster [40.13066412408771]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。
我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文 参考訳(メタデータ) (2023-11-14T15:56:18Z) - LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language
Models [88.19189563759942]
この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。
本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
パラメータの更新がないため、2Kまたは4Kのセグメントで事前訓練されたLLMは、パープレキシティを維持しながら最大2億の入力を一般化することができる。
論文 参考訳(メタデータ) (2023-08-30T16:47:51Z) - Accelerating Transformer Inference for Translation via Parallel Decoding [2.89306442817912]
自動回帰復号化は機械翻訳(MT)における変圧器の効率を制限する
並列デコーディングアルゴリズムを3つ提示し、異なる言語やモデルでテストする。
論文 参考訳(メタデータ) (2023-05-17T17:57:34Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z) - Fast and parallel decoding for transducer [25.510837666148024]
本研究では,トランスデューサ損失の制約付きバージョンを導入し,シーケンス間のモノトニックアライメントを厳密に学習する。
また、時間毎に出力できるシンボルの数を制限することで、標準の欲求探索とビーム探索アルゴリズムを改善した。
論文 参考訳(メタデータ) (2022-10-31T07:46:10Z) - Parallel window decoding enables scalable fault tolerant quantum
computation [2.624902795082451]
本稿では,デコード問題を並列化し,ほぼ任意のシンドローム処理速度を実現する手法を提案する。
並列化では、古典的なフィードバックの決定を遅らせる必要があり、論理クロックの速度が遅くなる。
既知のオート・テレポーテーション・ガジェットを使用すれば、キュービットオーバーヘッドの増加と引き換えに、スローダウンを完全に排除することができる。
論文 参考訳(メタデータ) (2022-09-18T12:37:57Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - Fast Interleaved Bidirectional Sequence Generation [90.58793284654692]
左右方向と左右方向を同時に生成するデコーダを提案する。
一方向デコードのための標準アーキテクチャを簡単に双方向デコーダに変換することができることを示す。
我々のインターリーブ双方向デコーダ (IBDecoder) は標準変換器のモデル単純性と訓練効率を保っている。
論文 参考訳(メタデータ) (2020-10-27T17:38:51Z) - FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire [74.04394069262108]
我々は,全てのターゲットトークンを同時に生成する非自己回帰(NAR)リップリーダーモデルであるFastLRを提案する。
FastLRは最先端のリップリーダーモデルと比較して10.97$times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2020-08-06T08:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。