論文の概要: DSD: A Distributed Speculative Decoding Solution for Edge-Cloud Agile Large Model Serving
- arxiv url: http://arxiv.org/abs/2511.21669v2
- Date: Mon, 01 Dec 2025 03:54:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 15:37:38.422284
- Title: DSD: A Distributed Speculative Decoding Solution for Edge-Cloud Agile Large Model Serving
- Title(参考訳): DSD: エッジクラウドのアジャイル大規模モデルサービングのための分散投機的デコーディングソリューション
- Authors: Fengze Yu, Leshu Li, Brad McDanel, Sai Qian Zhang,
- Abstract要約: 大規模言語モデル(LLM)推論は、多種多様なエッジクラウド環境における高いデコードレイテンシと限られたスケーラビリティに悩まされることが多い。
本稿では,SDを複数デバイスに拡張する分散投機的復号化フレームワークDSDを提案する。
多様なワークロードを対象とした実験では、DSDは既存のSDベースラインよりも最大1.1倍のスピードアップと9.7%高いスループットを実現している。
- 参考スコア(独自算出の注目度): 7.846320547611646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) inference often suffers from high decoding latency and limited scalability across heterogeneous edge-cloud environments. Existing speculative decoding (SD) techniques accelerate token generation but remain confined to single-node execution. We propose DSD, a distributed speculative decoding framework that extends SD to multi-device deployments through coordinated draft-target execution. Given the lack of prior work on simulating this paradigm, we first introduce DSD-Sim, a discrete-event simulator that captures network, batching, and scheduling dynamics. Building on insights from DSD-Sim, we further design an Adaptive Window Control (AWC) policy that dynamically adjusts speculation window size to optimize throughput. Experiments across diverse workloads show that DSD achieves up to 1.1x speedup and 9.7% higher throughput over existing SD baselines, enabling agile and scalable LLM serving across edge and cloud.
- Abstract(参考訳): 大規模言語モデル(LLM)推論は、多種多様なエッジクラウド環境における高いデコードレイテンシと限られたスケーラビリティに悩まされることが多い。
既存の投機的復号化(SD)技術はトークン生成を加速するが、シングルノード実行に限られる。
本稿では,SDを複数デバイスに拡張する分散投機的復号化フレームワークDSDを提案する。
このパラダイムをシミュレートする事前の作業がないことから、ネットワーク、バッチ、スケジューリングのダイナミクスをキャプチャする離散イベントシミュレータであるDSD-Simを最初に導入する。
DSD-Sim の知見に基づいて,提案手法の最適化のために,投機ウィンドウサイズを動的に調整する適応ウィンドウ制御 (AWC) ポリシーを設計する。
さまざまなワークロードにわたる実験によると、DSDは既存のSDベースラインよりも最大1.1倍のスピードアップと9.7%高いスループットを実現し、エッジとクラウドをまたいだアジャイルでスケーラブルなLSMを実現する。
関連論文リスト
- Self Speculative Decoding for Diffusion Large Language Models [21.955478721386953]
拡散に基づく大規模言語モデル (dLLMs) は自己回帰モデルに代わる競合モデルとして登場した。
textbfSelf textbfSpeculative textbfDecoding (SSD) を提案する。
SSDは最大3.46$times$ Speedupを実現し、出力はLLaDAやDreamのようなオープンソースのモデルで段階的に復号化される。
論文 参考訳(メタデータ) (2025-10-05T10:52:28Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - KNN-SSD: Enabling Dynamic Self-Speculative Decoding via Nearest Neighbor Layer Set Optimization [20.230236656479207]
投機的復号化(SD)は、大規模言語モデル(LLM)の推論を加速するために広く使われているパラダイムとして登場した。
KNN-SSDは、K-Nearest Neighbor(KNN)探索を利用して、異なるスキップ層と様々なドメイン入力をマッチングするアルゴリズムである。
論文 参考訳(メタデータ) (2025-05-22T03:04:47Z) - Diffusion Models are Secretly Exchangeable: Parallelizing DDPMs via Autospeculation [32.70038115212533]
本稿では,広く使われている投機的復号アルゴリズムをDDPMに拡張したemphAutospeculative Decoding (ASD)を紹介する。
我々の理論的分析は、ASDが$tildeO (Kfrac13)$並列実行速度を$K$ステップDDPMで達成していることを示している。
論文 参考訳(メタデータ) (2025-05-06T21:10:37Z) - Mixture of Attentions For Speculative Decoding [17.344416130742232]
投機的復号法(SD)は、より小さなモデルを利用して将来のトークンを効率的に提案し、それを大規模言語モデルによって並列に検証する。
SDモデルには、トレーニング中のオン・ポリティネスの欠如や部分観測可能性の欠如など、いくつかの制限がある。
SD用ミクチャ・オブ・アテンションの導入により,小型モデルのより基礎的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-04T10:25:52Z) - Digital Twin-Assisted Data-Driven Optimization for Reliable Edge Caching in Wireless Networks [60.54852710216738]
我々はD-RECと呼ばれる新しいデジタルツインアシスト最適化フレームワークを導入し、次世代無線ネットワークにおける信頼性の高いキャッシュを実現する。
信頼性モジュールを制約付き決定プロセスに組み込むことで、D-RECは、有利な制約に従うために、アクション、報酬、状態を適応的に調整することができる。
論文 参考訳(メタデータ) (2024-06-29T02:40:28Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。