Fugu-MT 論文翻訳(概要): SpecInfer: Accelerating Generative LLM Serving with Speculative Inference and Token Tree Verification

論文の概要: SpecInfer: Accelerating Generative LLM Serving with Speculative Inference and Token Tree Verification

arxiv url: http://arxiv.org/abs/2305.09781v1
Date: Tue, 16 May 2023 20:12:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-18 18:30:59.563024
Title: SpecInfer: Accelerating Generative LLM Serving with Speculative Inference and Token Tree Verification
Title（参考訳）: SpecInfer: 投機推論とトークンツリー検証による生成LDMの高速化
Authors: Xupeng Miao, Gabriele Oliaro, Zhihao Zhang, Xinhao Cheng, Zeyu Wang, Rae Ying Yee Wong, Zhuoming Chen, Daiyaan Arfeen, Reyna Abhyankar, Zhihao Jia
Abstract要約: SpecInferは、投機的推論とトークンツリー検証によって生成可能な大規模言語モデルを高速化するシステムである。 SpecInferの背後にある重要な洞察は、様々な強化調整された小さな言語モデルを組み合わせて、LLMの出力を共同で予測することである。トークンツリーで表される全ての候補トークンシーケンスの正当性を、新しいツリーベースの並列復号機構を用いてLCMにより並列に検証する。
参考スコア（独自算出の注目度）: 6.324681948408725
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The high computational and memory requirements of generative large language models (LLMs) make it challenging to serve them quickly and cheaply. This paper introduces SpecInfer, an LLM serving system that accelerates generative LLM inference with speculative inference and token tree verification. A key insight behind SpecInfer is to combine various collectively boost-tuned small language models to jointly predict the LLM's outputs; the predictions are organized as a token tree, whose nodes each represent a candidate token sequence. The correctness of all candidate token sequences represented by a token tree is verified by the LLM in parallel using a novel tree-based parallel decoding mechanism. SpecInfer uses an LLM as a token tree verifier instead of an incremental decoder, which significantly reduces the end-to-end latency and computational requirement for serving generative LLMs while provably preserving model quality.
Abstract（参考訳）: 生成型大規模言語モデル(LLM)の高い計算とメモリ要求は、それらを迅速かつ安価に提供することを困難にしている。本稿では、投機推論とトークンツリー検証によるジェネレーティブLLM推論を高速化するLLMサービスシステムであるSpecInferを紹介する。 specinferの背後にある重要な洞察は、様々な集合的に調整された小さな言語モデルを組み合わせてllmの出力を共同で予測することである。トークンツリーで表される全ての候補トークンシーケンスの正当性を、新しいツリーベースの並列復号機構を用いてLCMにより並列に検証する。 SpecInferは、インクリメンタルデコーダの代わりに LLM をトークンツリー検証器として使用し、モデル品質を確実に保ちながら、生成 LLM を提供するためのエンドツーエンドのレイテンシと計算要求を大幅に削減する。

関連論文リスト

Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文参考訳（メタデータ） (2025-11-25T14:20:08Z)
FlowSpec: Continuous Pipelined Speculative Decoding for Efficient Distributed LLM Inference [9.279335822985441]
分散推論は、ネットワークエッジでの大規模言語モデル(LLM)の推論を可能にするための有望なアプローチとして機能する。最近のパイプラインベースのアプローチは、通信と計算を並列化する可能性があり、推論遅延を減らすのに役立つ。パイプライン並列ツリーベースの投機的復号化フレームワークであるFlowSpecを提案する。
論文参考訳（メタデータ） (2025-07-03T13:47:42Z)
Beyond Next Token Probabilities: Learnable, Fast Detection of Hallucinations and Data Contamination on LLM Output Distributions [60.43398881149664]
LLM出力シグナチャの効率的な符号化を訓練した軽量アテンションベースアーキテクチャであるLOS-Netを紹介する。非常に低い検出レイテンシを維持しながら、さまざまなベンチマークやLLMで優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-03-18T09:04:37Z)
Speeding up Speculative Decoding via Approximate Verification [7.754712828900729]
投機的復号法 (SD) はLarge Language Models (LLM) を用いた高速推論手法である。本稿では,SPRINTERを提案する。SPRINTERは,LLMから生成されたトークンが目標のLLMに受け入れられるかどうかを予測するために訓練された,低複雑さの検証器である。本稿では,SPRINTERの理論解析を行い,生成したトークンの統計的特性と遅延の低減について検討する。
論文参考訳（メタデータ） (2025-02-06T23:10:53Z)
SuffixDecoding: A Model-Free Approach to Speeding Up Large Language Model Inference [9.143856130336783]
SuffixDecodingは、投機的復号化を通じて大きな言語モデル(LLM)推論を加速するためのモデルなしのアプローチである。当社のアプローチは,新たなモデルの維持と編成のオーバーヘッドを伴わずに,柔軟な木構造推測を可能にする。プロプライエタリなマルチLLMテキスト・ツー・トーケンアプリケーションでは、SuffixDecodingは2.9倍の出力スループットと3倍のレイテンシを実現している。
論文参考訳（メタデータ） (2024-11-07T18:49:33Z)
ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文参考訳（メタデータ） (2024-10-08T01:05:08Z)
Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [53.58854856174773]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。既存の列車不要の手法を30%上回り、訓練方法さえ25%上回っている。
論文参考訳（メタデータ） (2024-08-16T12:20:56Z)
Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文参考訳（メタデータ） (2024-07-23T06:21:24Z)
SpecExec: Massively Parallel Speculative Decoding for Interactive LLM Inference on Consumer Devices [18.81344021150902]
SpecExecは単純な並列デコード方式で、LLMファミリ向けのターゲットモデルイテレーション毎に最大20個のトークンを生成することができる。我々は,RAMオフロードが4～6トークン/秒,量子化が4ビット,あるいは16ビット重みが2～3トークン/秒の一般GPU上で50B以上のパラメータLLMを推定した。
論文参考訳（メタデータ） (2024-06-04T17:53:36Z)
Latent Logic Tree Extraction for Event Sequence Explanation from LLMs [19.90330712436838]
医療やロボティクスなどの現代のハイテイクシステムは、しばしば巨大なストリーミングイベントシーケンスを生成する。我々のゴールは、Large Language Models (LLMs) から論理木に基づく説明を引き出すための効率的なプラグイン・アンド・プレイツールを設計し、観測された各イベントシーケンスに対するカスタマイズされた洞察を提供することです。オンライン設定では、ローカルに構築された軽量なモデルが、数回だけ繰り返して、各シーケンスのLSMから最も関連性の高いルールを反復的に抽出します。
論文参考訳（メタデータ） (2024-06-03T09:10:42Z)
Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。 NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文参考訳（メタデータ） (2024-05-29T17:55:03Z)
Recursive Speculative Decoding: Accelerating LLM Inference via Sampling Without Replacement [11.91629418177851]
投機的復号法(英: Speculative decoding)は、大規模言語モデルの推論・加速度法である。近年の作業では、草稿の伐採によってこの方法が進歩している。再帰的投機的復号法(Recursive Speculative Decoding:RSD)を提案する。
論文参考訳（メタデータ） (2024-02-21T22:57:49Z)
LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning [67.39585115936329]
LLMには、微調整なしで長いコンテキストを処理できる固有の能力がある、と我々は主張する。バイレベルアテンション情報を構築することで,LLMのコンテキストウィンドウを拡張するためのSelfExtendを提案する。複数のベンチマークで包括的な実験を行い、その結果、既存のLLMのコンテキストウィンドウ長を効果的に拡張できることが示されている。
論文参考訳（メタデータ） (2024-01-02T18:30:51Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。 LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文参考訳（メタデータ） (2023-04-10T09:55:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。