論文の概要: SpecInfer: Accelerating Generative LLM Serving with Speculative
Inference and Token Tree Verification
- arxiv url: http://arxiv.org/abs/2305.09781v1
- Date: Tue, 16 May 2023 20:12:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 18:30:59.563024
- Title: SpecInfer: Accelerating Generative LLM Serving with Speculative
Inference and Token Tree Verification
- Title(参考訳): SpecInfer: 投機推論とトークンツリー検証による生成LDMの高速化
- Authors: Xupeng Miao, Gabriele Oliaro, Zhihao Zhang, Xinhao Cheng, Zeyu Wang,
Rae Ying Yee Wong, Zhuoming Chen, Daiyaan Arfeen, Reyna Abhyankar, Zhihao Jia
- Abstract要約: SpecInferは、投機的推論とトークンツリー検証によって生成可能な大規模言語モデルを高速化するシステムである。
SpecInferの背後にある重要な洞察は、様々な強化調整された小さな言語モデルを組み合わせて、LLMの出力を共同で予測することである。
トークンツリーで表される全ての候補トークンシーケンスの正当性を、新しいツリーベースの並列復号機構を用いてLCMにより並列に検証する。
- 参考スコア(独自算出の注目度): 6.324681948408725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The high computational and memory requirements of generative large language
models (LLMs) make it challenging to serve them quickly and cheaply. This paper
introduces SpecInfer, an LLM serving system that accelerates generative LLM
inference with speculative inference and token tree verification. A key insight
behind SpecInfer is to combine various collectively boost-tuned small language
models to jointly predict the LLM's outputs; the predictions are organized as a
token tree, whose nodes each represent a candidate token sequence. The
correctness of all candidate token sequences represented by a token tree is
verified by the LLM in parallel using a novel tree-based parallel decoding
mechanism. SpecInfer uses an LLM as a token tree verifier instead of an
incremental decoder, which significantly reduces the end-to-end latency and
computational requirement for serving generative LLMs while provably preserving
model quality.
- Abstract(参考訳): 生成型大規模言語モデル(LLM)の高い計算とメモリ要求は、それらを迅速かつ安価に提供することを困難にしている。
本稿では、投機推論とトークンツリー検証によるジェネレーティブLLM推論を高速化するLLMサービスシステムであるSpecInferを紹介する。
specinferの背後にある重要な洞察は、様々な集合的に調整された小さな言語モデルを組み合わせてllmの出力を共同で予測することである。
トークンツリーで表される全ての候補トークンシーケンスの正当性を、新しいツリーベースの並列復号機構を用いてLCMにより並列に検証する。
SpecInferは、インクリメンタルデコーダの代わりに LLM をトークンツリー検証器として使用し、モデル品質を確実に保ちながら、生成 LLM を提供するためのエンドツーエンドのレイテンシと計算要求を大幅に削減する。
関連論文リスト
- Beyond the Speculative Game: A Survey of Speculative Execution in Large Language Models [9.121458241884444]
投機的実行は、textitdraft-then-verifyスタイルでLLMデコードに導入される。
コストのかかる推論を並列化することにより、復号速度を大幅に向上させることができる。
LLMにおける投機的実行の文献をレビューし、統一する最初の調査論文を提示する。
論文 参考訳(メタデータ) (2024-04-23T10:25:45Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Optimizing LLM Queries in Relational Workloads [58.254894049950366]
本稿では,LLMをリレーショナルクエリ内で実行する解析処理に対して,LLM(Large Language Models)推論を最適化する方法を示す。
私たちはこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供しています。
実データセット上の多様なLLMベースのクエリのベンチマークで、エンドツーエンドのレイテンシを最大4.4倍改善する。
論文 参考訳(メタデータ) (2024-03-09T07:01:44Z) - Recursive Speculative Decoding: Accelerating LLM Inference via Sampling
Without Replacement [11.91629418177851]
投機的復号法(英: Speculative decoding)は、大規模言語モデルの推論・加速度法である。
近年の作業では、草稿の伐採によってこの方法が進歩している。
再帰的投機的復号法(Recursive Speculative Decoding:RSD)を提案する。
論文 参考訳(メタデータ) (2024-02-21T22:57:49Z) - Generation Meets Verification: Accelerating Large Language Model Inference with Smart Parallel Auto-Correct Decoding [11.832919020149891]
本研究の目的は,数十億のパラメータを持つ大規模言語モデル(LLM)の推論速度を高速化することである。
textbfSmart textbfParallel textbfAuto-textbfCorrect dtextbfEcoding (SPACE)を提案する。
論文 参考訳(メタデータ) (2024-02-19T03:39:10Z) - LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning [70.29860436274241]
LLMには、微調整なしで長いコンテキストを処理できる固有の能力がある、と我々は主張する。
バイレベルアテンション情報を構築することで,LLMのコンテキストウィンドウを拡張するためのSelfExtendを提案する。
複数のベンチマークで包括的な実験を行い、その結果、既存のLLMのコンテキストウィンドウ長を効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-01-02T18:30:51Z) - SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。
パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。
モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文 参考訳(メタデータ) (2023-10-18T16:07:01Z) - Waffling around for Performance: Visual Classification with Random Words
and Broad Concepts [121.60918966567657]
WaffleCLIPはゼロショット視覚分類のためのフレームワークで、LLM生成した記述子をランダムな文字と単語記述子に置き換える。
LLM生成記述子で導入された追加意味論の影響と欠点について、広範囲にわたる実験的研究を行う。
論文 参考訳(メタデータ) (2023-06-12T17:59:48Z) - Coarse-Tuning Models of Code with Reinforcement Learning Feedback [0.0]
コード上で事前訓練されたLarge Language Models (LLM) が、プログラム合成の主流のアプローチとして登場した。
コードの品質を評価する接地関数からのフィードバックを用いて、強化学習により事前学習したLLMをさらに訓練するRCCFを提案する。
論文 参考訳(メタデータ) (2023-05-25T22:09:08Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。