論文の概要: Generation Meets Verification: Accelerating Large Language Model
Inference with Smart Parallel Auto-Correct Decoding
- arxiv url: http://arxiv.org/abs/2402.11809v1
- Date: Mon, 19 Feb 2024 03:39:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 18:56:50.558396
- Title: Generation Meets Verification: Accelerating Large Language Model
Inference with Smart Parallel Auto-Correct Decoding
- Title(参考訳): generation meets verification: smart parallel auto-correct decodingによる大規模言語モデル推論の高速化
- Authors: Hanling Yi, Feng Lin, Hongbin Li, Peiyang Ning, Xiaotian Yu, Rong Xiao
- Abstract要約: 本研究の目的は,数十億のパラメータを持つ大規模言語モデル(LLM)の推論速度を高速化することである。
textbfSmart textbfParallel textbfAuto-textbfCorrect dtextbfEcoding (SPACE)を提案する。
- 参考スコア(独自算出の注目度): 12.538348206151424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This research aims to accelerate the inference speed of large language models
(LLMs) with billions of parameters. We propose \textbf{S}mart \textbf{P}arallel
\textbf{A}uto-\textbf{C}orrect d\textbf{E}coding (SPACE), an innovative
approach designed for achieving lossless acceleration of LLMs. By integrating
semi-autoregressive inference and speculative decoding capabilities, SPACE
uniquely enables autoregressive LLMs to parallelize token generation and
verification. This is realized through a specialized semi-autoregressive
supervised fine-tuning process that equips existing LLMs with the ability to
simultaneously predict multiple tokens. Additionally, an auto-correct decoding
algorithm facilitates the simultaneous generation and verification of token
sequences within a single model invocation. Through extensive experiments on a
range of LLMs, SPACE has demonstrated inference speedup ranging from 2.7x-4.0x
on HumanEval-X while maintaining output quality.
- Abstract(参考訳): 本研究の目的は,数十億のパラメータを持つ大規模言語モデル(LLM)の推論速度を高速化することである。
本稿では, LLMのロスレスアクセラレーションを実現するための革新的なアプローチであるSPACE(textbf{S}mart \textbf{P}arallel \textbf{A}uto-\textbf{C}orrect d\textbf{E}coding)を提案する。
半自己回帰推論と投機的復号機能を統合することにより、SPACEはトークン生成と検証を並列化する自動回帰LDMを独自に実現している。
これは、既存のllmに複数のトークンを同時に予測する能力を与える特別な半自己回帰的教師付き微調整プロセスによって実現される。
さらに、自動訂正復号アルゴリズムは、1つのモデル呼び出し内でトークンシーケンスの同時生成と検証を容易にする。
幅広い LLM の実験を通じて、SPACE は出力品質を維持しながら、HumanEval-X 上の2.7x-4.0x までの推論速度を実証した。
関連論文リスト
- Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding [16.66039039507951]
大規模言語モデル(LLM)は、実際にはユビキタスなものとなり、翻訳、要約、命令の追従といった生成タスクに広く利用されている。
本稿では,異なるサイズの言語モデルを組み合わせて,自己回帰復号化の効率を高めるハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T18:59:28Z) - Chimera: A Lossless Decoding Method for Accelerating Large Language
Models Inference by Fusing all Tokens [25.677308132947218]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - AutoTimes: Autoregressive Time Series Forecasters via Large Language
Models [72.77653698874678]
本稿では,大規模言語モデル(LLM)を自動回帰時系列予測器として活用するためにAutoTimesを提案する。
提案手法は, LLM, 追加テキスト, 時系列を命令として利用することにより, 顕著な手法の一般化を実現し, 性能の向上を実現している。
論文 参考訳(メタデータ) (2024-02-04T06:59:21Z) - SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。
パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。
モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文 参考訳(メタデータ) (2023-10-18T16:07:01Z) - Connecting Large Language Models with Evolutionary Algorithms Yields
Powerful Prompt Optimizers [70.18534453485849]
EvoPromptは離散的なプロンプト最適化のためのフレームワークである。
進化的アルゴリズム(EA)の概念は、優れた性能と高速収束を示すものである。
人為的なプロンプトと既存の方法で自動プロンプト生成を著しく上回っている。
論文 参考訳(メタデータ) (2023-09-15T16:50:09Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - LLMCad: Fast and Scalable On-device Large Language Model Inference [11.103824752113148]
テキスト生成や質問応答といった生成タスクは、モバイルアプリケーションの領域において重要な位置を占める。
現在、これらの生成タスクの実行は、大規模言語モデル(LLM)に大きく依存している。
本稿では,効率的な生成自然言語処理(NLP)タスク用に設計されたオンデバイス推論エンジンであるLLMCadを紹介する。
論文 参考訳(メタデータ) (2023-09-08T10:44:19Z) - LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language
Models [88.19189563759942]
この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。
本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
パラメータの更新がないため、2Kまたは4Kのセグメントで事前訓練されたLLMは、パープレキシティを維持しながら最大2億の入力を一般化することができる。
論文 参考訳(メタデータ) (2023-08-30T16:47:51Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。