Fugu-MT 論文翻訳(概要): SpecInfer: Accelerating Generative Large Language Model Serving with Tree-based Speculative Inference and Verification

論文の概要: SpecInfer: Accelerating Generative Large Language Model Serving with Tree-based Speculative Inference and Verification

arxiv url: http://arxiv.org/abs/2305.09781v3
Date: Tue, 23 Jan 2024 05:02:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-24 19:57:01.935141
Title: SpecInfer: Accelerating Generative Large Language Model Serving with Tree-based Speculative Inference and Verification
Title（参考訳）: SpecInfer: 木に基づく投機推論と検証による生成型大規模言語モデルの高速化
Authors: Xupeng Miao, Gabriele Oliaro, Zhihao Zhang, Xinhao Cheng, Zeyu Wang, Zhengxin Zhang, Rae Ying Yee Wong, Alan Zhu, Lijie Yang, Xiaoxiang Shi, Chunan Shi, Zhuoming Chen, Daiyaan Arfeen, Reyna Abhyankar, Zhihao Jia
Abstract要約: SpecInferは、木に基づく投機的推測と検証を扱う生成的大規模言語モデル(LLM)を高速化するシステムである。トークンツリーで表される全ての候補トークンシーケンスの正当性を、新しいツリーベースの並列復号機構を用いてLLMに対して並列に検証する。
参考スコア（独自算出の注目度）: 13.446126267799965
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces SpecInfer, a system that accelerates generative large language model (LLM) serving with tree-based speculative inference and verification. The key idea behind SpecInfer is leveraging small speculative models to predict the LLM's outputs; the predictions are organized as a token tree, whose nodes each represent a candidate token sequence. The correctness of all candidate token sequences represented by a token tree is verified against the LLM in parallel using a novel tree-based parallel decoding mechanism. SpecInfer uses an LLM as a token tree verifier instead of an incremental decoder, which significantly reduces the end-to-end latency and computational requirement for serving generative LLMs while provably preserving model quality. Our evaluation shows that SpecInfer outperforms existing LLM serving systems by 1.5-2.8x for distributed LLM inference and by 2.6-3.5x for offloading-based LLM inference, while preserving the same generative performance. SpecInfer is publicly available at https://github.com/flexflow/FlexFlow/
Abstract（参考訳）: 本稿では,木に基づく投機的推論と検証を行う生成型大言語モデル(llm)を高速化するシステムであるspecinferを提案する。 SpecInferの背景にある重要なアイデアは、小さな投機モデルを利用してLCMの出力を予測することだ。トークンツリーで表される全ての候補トークンシーケンスの正当性を、新しいツリーベースの並列復号機構を用いてLCMに対して並列に検証する。 SpecInferは、インクリメンタルデコーダの代わりに LLM をトークンツリー検証器として使用し、モデル品質を確実に保ちながら、生成 LLM を提供するためのエンドツーエンドのレイテンシと計算要求を大幅に削減する。評価の結果, SpecInfer は分散 LLM では 1.5-2.8x ,オフロード型 LLM では 2.6-3.5x で, 生成性能は 1.5-2.8x で優れていた。 SpecInferはhttps://github.com/flexflow/FlexFlow/で公開されている。

関連論文リスト

FlowSpec: Continuous Pipelined Speculative Decoding for Efficient Distributed LLM Inference [9.279335822985441]
分散推論は、ネットワークエッジでの大規模言語モデル(LLM)の推論を可能にするための有望なアプローチとして機能する。最近のパイプラインベースのアプローチは、通信と計算を並列化する可能性があり、推論遅延を減らすのに役立つ。パイプライン並列ツリーベースの投機的復号化フレームワークであるFlowSpecを提案する。
論文参考訳（メタデータ） (2025-07-03T13:47:42Z)
Speeding up Speculative Decoding via Approximate Verification [7.754712828900729]
投機的復号法 (SD) はLarge Language Models (LLM) を用いた高速推論手法である。本稿では,SPRINTERを提案する。SPRINTERは,LLMから生成されたトークンが目標のLLMに受け入れられるかどうかを予測するために訓練された,低複雑さの検証器である。本稿では,SPRINTERの理論解析を行い,生成したトークンの統計的特性と遅延の低減について検討する。
論文参考訳（メタデータ） (2025-02-06T23:10:53Z)
SuffixDecoding: A Model-Free Approach to Speeding Up Large Language Model Inference [9.143856130336783]
SuffixDecodingは、投機的復号化を通じて大きな言語モデル(LLM)推論を加速するためのモデルなしのアプローチである。当社のアプローチは,新たなモデルの維持と編成のオーバーヘッドを伴わずに,柔軟な木構造推測を可能にする。プロプライエタリなマルチLLMテキスト・ツー・トーケンアプリケーションでは、SuffixDecodingは2.9倍の出力スループットと3倍のレイテンシを実現している。
論文参考訳（メタデータ） (2024-11-07T18:49:33Z)
ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文参考訳（メタデータ） (2024-10-08T01:05:08Z)
Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [53.58854856174773]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。既存の列車不要の手法を30%上回り、訓練方法さえ25%上回っている。
論文参考訳（メタデータ） (2024-08-16T12:20:56Z)
Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文参考訳（メタデータ） (2024-07-23T06:21:24Z)
SpecExec: Massively Parallel Speculative Decoding for Interactive LLM Inference on Consumer Devices [18.81344021150902]
SpecExecは単純な並列デコード方式で、LLMファミリ向けのターゲットモデルイテレーション毎に最大20個のトークンを生成することができる。我々は,RAMオフロードが4～6トークン/秒,量子化が4ビット,あるいは16ビット重みが2～3トークン/秒の一般GPU上で50B以上のパラメータLLMを推定した。
論文参考訳（メタデータ） (2024-06-04T17:53:36Z)
Latent Logic Tree Extraction for Event Sequence Explanation from LLMs [19.90330712436838]
医療やロボティクスなどの現代のハイテイクシステムは、しばしば巨大なストリーミングイベントシーケンスを生成する。我々のゴールは、Large Language Models (LLMs) から論理木に基づく説明を引き出すための効率的なプラグイン・アンド・プレイツールを設計し、観測された各イベントシーケンスに対するカスタマイズされた洞察を提供することです。オンライン設定では、ローカルに構築された軽量なモデルが、数回だけ繰り返して、各シーケンスのLSMから最も関連性の高いルールを反復的に抽出します。
論文参考訳（メタデータ） (2024-06-03T09:10:42Z)
Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。 NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文参考訳（メタデータ） (2024-05-29T17:55:03Z)
Recursive Speculative Decoding: Accelerating LLM Inference via Sampling Without Replacement [11.91629418177851]
投機的復号法(英: Speculative decoding)は、大規模言語モデルの推論・加速度法である。近年の作業では、草稿の伐採によってこの方法が進歩している。再帰的投機的復号法(Recursive Speculative Decoding:RSD)を提案する。
論文参考訳（メタデータ） (2024-02-21T22:57:49Z)
LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning [67.39585115936329]
LLMには、微調整なしで長いコンテキストを処理できる固有の能力がある、と我々は主張する。バイレベルアテンション情報を構築することで,LLMのコンテキストウィンドウを拡張するためのSelfExtendを提案する。複数のベンチマークで包括的な実験を行い、その結果、既存のLLMのコンテキストウィンドウ長を効果的に拡張できることが示されている。
論文参考訳（メタデータ） (2024-01-02T18:30:51Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。 LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文参考訳（メタデータ） (2023-04-10T09:55:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。