Fugu-MT 論文翻訳(概要): Optimizing Speculative Decoding for Serving Large Language Models Using Goodput

論文の概要: Optimizing Speculative Decoding for Serving Large Language Models Using Goodput

arxiv url: http://arxiv.org/abs/2406.14066v1
Date: Thu, 20 Jun 2024 07:43:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-21 15:00:17.603169
Title: Optimizing Speculative Decoding for Serving Large Language Models Using Goodput
Title（参考訳）: グッドプットを用いた大規模言語モデル実行のための投機的デコーディングの最適化
Authors: Xiaoxuan Liu, Cade Daniel, Langxiang Hu, Woosuk Kwon, Zhuohan Li, Xiangxi Mo, Alvin Cheung, Zhijie Deng, Ion Stoica, Hao Zhang,
Abstract要約: 投機的復号化は、大規模言語モデルにおいて最も効果的な手法の1つである。要求毎に最適な投機期間を決定するための動的フレームワークであるSmartSpecを開発した。 SmartSpecは、非投機的復号化ベースラインに比べて平均要求遅延を最大3.2倍まで減少させる。
参考スコア（独自算出の注目度）: 32.479057822334354
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Reducing the inference latency of large language models (LLMs) is crucial, and speculative decoding (SD) stands out as one of the most effective techniques. Rather than letting the LLM generate all tokens directly, speculative decoding employs effective proxies to predict potential outputs, which are then verified by the LLM without compromising the generation quality. Yet, deploying SD in real online LLM serving systems (with continuous batching) does not always yield improvement -- under higher request rates or low speculation accuracy, it paradoxically increases latency. Furthermore, there is no best speculation length work for all workloads under different system loads. Based on the observations, we develop a dynamic framework SmartSpec. SmartSpec dynamically determines the best speculation length for each request (from 0, i.e., no speculation, to many tokens) -- hence the associated speculative execution costs -- based on a new metric called goodput, which characterizes the current observed load of the entire system and the speculation accuracy. We show that SmartSpec consistently reduces average request latency by up to 3.2x compared to non-speculative decoding baselines across different sizes of target models, draft models, request rates, and datasets. Moreover, SmartSpec can be applied to different styles of speculative decoding, including traditional, model-based approaches as well as model-free methods like prompt lookup and tree-style decoding.
Abstract（参考訳）: 大規模言語モデル(LLM)の推論遅延の低減は重要であり、投機的復号化(SD)は最も効果的な手法の1つである。 LLMが全てのトークンを直接生成させる代わりに、投機的復号法は潜在的な出力を予測するために有効なプロキシを使用し、生成品質を損なうことなくLSMによって検証される。しかし、実際のオンライン LLM サービスシステムに SD をデプロイすることは、常に改善をもたらすとは限らない -- より高い要求率や低い投機精度の下では、パラドックス的にレイテンシを向上する。さらに、異なるシステム負荷下でのすべてのワークロードに対して、最高の投機期間の作業はない。観察に基づいて、SmartSpec を開発した。SmartSpec は、各要求に対して最適な投機期間を動的に決定する(つまり、多くのトークンに対する投機がない)。従って、関連する投機実行コストは、システム全体の現在の監視負荷と投機精度を特徴付ける新しい指標である goodput に基づく。 SmartSpecは、ターゲットモデル、ドラフトモデル、要求レート、データセットの異なるサイズの非投機的デコードベースラインと比較して、平均要求遅延を最大3.2倍まで減少させる。さらにSmartSpecは、従来のモデルベースのアプローチや、プロンプトルックアップやツリースタイルのデコーディングといったモデルフリーメソッドなど、投機的デコーディングの異なるスタイルにも適用することができる。

関連論文リスト

Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文参考訳（メタデータ） (2025-05-28T17:39:15Z)
Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文参考訳（メタデータ） (2025-05-28T14:03:02Z)
Semi-Clairvoyant Scheduling of Speculative Decoding Requests to Minimize LLM Inference Latency [4.372762934308627]
本稿では,LAPS-SD(Least-Attained/Perceived-Service for Speculative Decoding)と呼ばれる半クレアボイト要求スケジューリングアルゴリズムを提案する。 LAPS-SDは、デコーディング中に、要求を特徴に応じて適応的にスケジューリングすることで、平均推論遅延を効果的に最小化することができる。 LAPS-SDは、最先端のスケジューリング手法と比較して、推論遅延を約39%削減する。
論文参考訳（メタデータ） (2025-05-20T04:12:37Z)
PipeSpec: Breaking Stage Dependencies in Hierarchical LLM Decoding [4.734824660843965]
PipeSpecは、投機的デコーディングを階層的なパイプラインに配置された$k$モデルに一般化するフレームワークである。 PipeSpecは2.54$times$の高速化を実現し、最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2025-05-02T20:29:31Z)
Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文参考訳（メタデータ） (2025-04-15T16:00:21Z)
SpecServe: Efficient and SLO-Aware Large Language Model Serving with Adaptive Speculative Decoding [18.45994543035372]
投機的復号化は、大規模言語モデル推論を加速するための説得力のある手法として登場した。既存の投機的復号化ソリューションは、様々なワークロードやシステム環境に適応できないことが多い。本稿では,リアルタイム要求負荷に応じて投機戦略を動的に調整する,効率的なLLM推論システムであるSpecServeを紹介する。
論文参考訳（メタデータ） (2025-03-07T02:27:51Z)
TrimLLM: Progressive Layer Dropping for Domain-Specific LLMs [11.615399679746675]
ドメイン固有のユースケースにおけるローカルデプロイメントのための大規模言語モデル(LLM)の専門化は、強力なパフォーマンスを実現する上で必要である。我々は,現代のLLMで経験的に観察し,検証した層ワイド特殊化現象に基づいてTrimLLMを開発した。特定のドメインにおけるLLMの能力を維持し、ハードウェアやディープラーニングフレームワークに関係なく、推論スピードアップが達成できることを示す。
論文参考訳（メタデータ） (2024-12-15T16:47:16Z)
Multi-Bin Batching for Increasing LLM Inference Throughput [19.652542432683234]
大規模言語モデル(LL)は、システムの効率性を向上させるために人気が高まっている。リクエストはサーバ上のジョブをスケジューリングする重要なステップです。リクエストは、しばしば異なる生成長を持ち、リソースの未利用を引き起こす。我々は、この問題をキューイング理論の観点から形式化し、スループット制御ポリシーを設計することを目的とする。
論文参考訳（メタデータ） (2024-12-03T03:16:12Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,大規模言語モデル(LLM)の推論を高速化するパラダイムとして広く用いられている。本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。 SWIFTは生成したテキストの元の分布を保ちながら1.3x-1.6xの高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-09T14:15:30Z)
ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文参考訳（メタデータ） (2024-10-08T01:05:08Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文参考訳（メタデータ） (2024-06-27T22:20:39Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
Speculative Streaming: Fast LLM Inference without Auxiliary Models [21.454206732725563]
投機的ストリーミング(英: Speculative Streaming)は、単一モデル投機的復号法である。これは、次のトークン予測から将来のn-gram予測に微調整対象を変更することで、ターゲットモデルにドラフトを融合させる。 1.8から3.1Xのデコーディングを、多様なタスクセットで高速化する。
論文参考訳（メタデータ） (2024-02-16T23:36:43Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文参考訳（メタデータ） (2023-11-14T15:56:18Z)
The Synergy of Speculative Decoding and Batching in Serving Large Language Models [3.3849225405083336]
本稿では,異なるバッチサイズに対して最適な投機長を選択する新しい投機的復号法を提案する。提案手法は, 提案手法により, 固定された投機長を持つ, 最先端の投機復号方式と同等以上の性能が得られることを示す。
論文参考訳（メタデータ） (2023-10-28T20:36:36Z)
DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。 DistillSpecは標準SDよりも10～45%のスピードアップを実現しています。
論文参考訳（メタデータ） (2023-10-12T16:21:04Z)
SpecInfer: Accelerating Generative Large Language Model Serving with Tree-based Speculative Inference and Verification [13.174386920965107]
SpecInferは、木に基づく投機的推測と検証を扱う生成的大規模言語モデル(LLM)を高速化するシステムである。トークンツリーで表される全ての候補トークンシーケンスの正当性を、新しいツリーベースの並列復号機構を用いてLLMに対して並列に検証する。
論文参考訳（メタデータ） (2023-05-16T20:12:59Z)
Speculative Decoding: Exploiting Speculative Execution for Accelerating Seq2seq Generation [80.2267931231335]
本稿では,自己回帰(AR)デコーディングを高速化する投機的実行のアイデアを活用するための投機的デコーディング(SpecDec)を提案する。 SpecDecには2つのイノベーションがある。Spec-Drafter - 効率的なドラフトのために特別に最適化された独立モデル、Spec-Verification - ドラフトされたトークンを効率的に検証するための信頼性の高い方法である。
論文参考訳（メタデータ） (2022-03-30T17:27:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。