論文の概要: SpecServe: Efficient and SLO-Aware Large Language Model Serving with Adaptive Speculative Decoding
- arxiv url: http://arxiv.org/abs/2503.05096v1
- Date: Fri, 07 Mar 2025 02:27:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 19:13:14.857326
- Title: SpecServe: Efficient and SLO-Aware Large Language Model Serving with Adaptive Speculative Decoding
- Title(参考訳): SpecServe: 適応的投機的復号化を実現する効率的でSLO対応の大規模言語モデル
- Authors: Kaiyu Huang, Hao Wu, Zhubo Shi, Han Zou, Minchen Yu, Qingjiang Shi,
- Abstract要約: 投機的復号化は、大規模言語モデル推論を加速するための説得力のある手法として登場した。
既存の投機的復号化ソリューションは、様々なワークロードやシステム環境に適応できないことが多い。
本稿では,リアルタイム要求負荷に応じて投機戦略を動的に調整する,効率的なLLM推論システムであるSpecServeを紹介する。
- 参考スコア(独自算出の注目度): 18.45994543035372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) services often face challenges in achieving low inference latency and meeting Service Level Objectives (SLOs) under dynamic request patterns. Speculative decoding, which exploits lightweight models for drafting and LLMs for verification, has emerged as a compelling technique to accelerate LLM inference. However, existing speculative decoding solutions often fail to adapt to varying workloads and system environments, resulting in performance variability and SLO violations. In this paper, we introduce SpecServe, an efficient LLM inference system that dynamically adjusts speculative strategies according to real-time request loads and system configurations. SpecServe proposes a theoretical model to understand and predict the efficiency of speculative decoding across diverse scenarios. Additionally, it implements intelligent drafting and verification algorithms to guarantee optimal performance while achieving high SLO attainment. Experimental results on real-world LLM traces demonstrate that SpecServe consistently meets SLOs and achieves substantial performance improvements, yielding 1.14$\times$-14.3$\times$ speedups over state-of-the-art speculative inference systems.
- Abstract(参考訳): 大規模言語モデル(LLM)サービスは、推論遅延の低さと、動的要求パターン下でのサービスレベルオブジェクト(SLO)の整合において、しばしば課題に直面します。
投機的復号化は,LLM推論の高速化に有効な手法として,軽量な起草モデルとLCMの検証に活用されている。
しかし、既存の投機的復号化ソリューションは、様々なワークロードやシステム環境に適応できないことが多く、結果としてパフォーマンスの変動とSLO違反が発生する。
本稿では,リアルタイム要求負荷やシステム構成に応じて投機的戦略を動的に調整する,効率的なLLM推論システムであるSpecServeを紹介する。
SpecServeは、様々なシナリオで投機的復号化の効率を理解し予測する理論モデルを提案する。
さらに、インテリジェントなドラフトと検証アルゴリズムを実装し、高いSLO達成を達成しつつ、最適なパフォーマンスを保証する。
実世界のLSMトレース実験の結果、SpecServeはSLOを一貫して満たし、大幅な性能向上を実現し、1.14$\times$-14.3$\times$、最先端の投機的推論システムのスピードアップを実現している。
関連論文リスト
- AsynDBT: Asynchronous Distributed Bilevel Tuning for efficient In-Context Learning with Large Language Models [4.4866154758274375]
In-context Learning (ICL) は、LLMが入力内で提供される例を使って新しいタスクに適応できる有望なパラダイムとして登場した。
ICLを組み込んだ以前のFLアプローチは、重度のストラグラー問題と、異種非同一データに関連する課題に悩まされてきた。
本稿では,LLMからのフィードバックに基づいて,文脈内学習サンプルの最適化とフラグメントのプロンプトを行う非同期分散バイレベルチューニング(AsynDBT)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-02-06T13:07:49Z) - A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - Efficient Onboard Vision-Language Inference in UAV-Enabled Low-Altitude Economy Networks via LLM-Enhanced Optimization [61.55616421408666]
低高度経済ネットワーク(LAENets)は、航空監視、環境検知、セマンティックデータ収集など、様々な応用を可能にしている。
オンボードビジョン(VLM)は、リアルタイムな推論を提供するが、オンボードの動的ネットワーク条件は限られている。
動的LEENet条件下での通信効率を向上させるUAV対応LEENetシステムを提案する。
論文 参考訳(メタデータ) (2025-10-11T05:11:21Z) - LLM-FS-Agent: A Deliberative Role-based Large Language Model Architecture for Transparent Feature Selection [0.0]
本稿では,LLM-FS-Agentについて紹介する。
CIC-DIAD 2024 IoT 侵入検出データセットを用いて,サイバーセキュリティ領域における LLM-FS-Agent の評価を行った。
論文 参考訳(メタデータ) (2025-10-07T13:46:06Z) - Fun-ASR Technical Report [89.84148151617022]
本稿では,大規模データ,大規模モデル容量,LLM統合,強化学習を組み合わせた大規模ALSシステムFun-ASRを提案する。
Fun-ASRは特に実用的なデプロイメントに最適化されており、ストリーミング機能、ノイズの堅牢性、コードスイッチング、ホットワードのカスタマイズ、その他の現実世界のアプリケーション要件を満たすことができる。
運用指向の最適化により、Fun-ASRは実際のアプリケーションデータセット上での最先端のパフォーマンスを実現し、実用的設定におけるその有効性と堅牢性を示す。
論文 参考訳(メタデータ) (2025-09-15T23:19:36Z) - Quality-of-Service Aware LLM Routing for Edge Computing with Multiple Experts [18.479200918676575]
大きな言語モデル(LLM)は目覚ましい機能を示しており、LLMサービスのユーザ需要が大幅に増加した。
しかしながら、クラウドベースのLLMサービスは、高いレイテンシ、不安定な応答性、プライバシの懸念に悩まされることが多い。
本稿では,持続的高品質LLMサービスのための深層強化学習に基づくルーティングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-01T00:45:15Z) - Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - Throughput-Optimal Scheduling Algorithms for LLM Inference and AI Agents [6.318292471845427]
我々は,大規模言語モデル(LLM)推論のための待ち行列の基礎を開発する。
大規模な'作業保守'スケジューリングアルゴリズムが最大スループットを達成できることを実証する。
論文 参考訳(メタデータ) (2025-04-10T00:12:12Z) - AdaServe: Accelerating Multi-SLO LLM Serving with SLO-Customized Speculative Decoding [12.106234303559571]
本稿では,SLO-customized Speculative Decodingによる効率的なマルチSLOサービスを支援するために設計された,最初のサービスシステムであるAdaServeを紹介する。
AdaServeは制約付き最適化問題として機能するマルチSLOを定式化し、ハードウェア対応アルゴリズムを導入した。
システムスループットを最大化しつつ、復号速度のきめ細かい制御を可能にする推測-検証パイプラインを備えている。
論文 参考訳(メタデータ) (2025-01-21T14:15:01Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - GUIDE: A Global Unified Inference Engine for Deploying Large Language Models in Heterogeneous Environments [1.0558515062670693]
現実世界のシナリオにおける大規模言語モデル(LLM)は依然として重要な課題である。
これらの課題は、しばしばメモリ使用率、レイテンシ、スループットの非効率につながる。
バッチレイテンシ、TTFT、デコードスループットといった主要なメトリクスに対して、予測エラーを9.9%から42.3%の精度で達成し、これらの問題に対処するフレームワークを開発する。
論文 参考訳(メタデータ) (2024-12-06T05:46:43Z) - AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。
AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文 参考訳(メタデータ) (2024-11-15T22:02:28Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Designing Large Foundation Models for Efficient Training and Inference: A Survey [35.40505841618305]
本稿では,基礎モデルに基づく現代的効率的なトレーニングと推論技術に焦点を当てる。
モデルとシステムデザイン 計算資源を節約するために、異なる側面からのLLMトレーニングと推論を最適化する。
論文 参考訳(メタデータ) (2024-09-03T15:35:01Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Optimizing Speculative Decoding for Serving Large Language Models Using Goodput [32.479057822334354]
投機的復号化は、大規模言語モデルにおいて最も効果的な手法の1つである。
要求毎に最適な投機期間を決定するための動的フレームワークであるSmartSpecを開発した。
SmartSpecは、非投機的復号化ベースラインに比べて平均要求遅延を最大3.2倍まで減少させる。
論文 参考訳(メタデータ) (2024-06-20T07:43:33Z) - LLM4MSR: An LLM-Enhanced Paradigm for Multi-Scenario Recommendation [52.55639178180821]
マルチシナリオレコメンデーション(MSR)の研究は注目されており、すべてのシナリオのデータを使用してレコメンデーションのパフォーマンスを同時に改善している。
既存の手法では、不十分なシナリオ知識を統合し、パーソナライズされたクロスシナリオの嗜好を無視する傾向があり、それによってサブ最適パフォーマンスがもたらされる。
本稿では,これらのギャップを埋めるために,大規模言語モデル (LLM) 拡張パラダイム LLM4MSR を提案する。
論文 参考訳(メタデータ) (2024-06-18T11:59:36Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - RouterBench: A Benchmark for Multi-LLM Routing System [25.515453832224804]
パフォーマンスとコストのバランスをとる場合、すべてのタスクやアプリケーションに最適に対処できるモデルは存在しない。
この制限により、個々のLSMの制約を克服するために、様々なモデルの強みを組み合わせたLSMルーティングシステムの開発に繋がった。
本稿では LLM ルーティングシステムの有効性を体系的に評価する新しい評価フレームワークである RouterBench を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:59:04Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Are Large Language Models Good Prompt Optimizers? [65.48910201816223]
我々は,LLMに基づくPrompt Optimizationの実際のメカニズムを明らかにするために研究を行っている。
以上の結果から, LLMは, 反射中の誤差の真の原因を特定するのに苦慮し, 自己の事前知識に偏っていることが明らかとなった。
我々は、より制御可能な方法でターゲットモデルの振舞いを直接最適化する新しい「自動振舞い最適化」パラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-03T09:48:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。