論文の概要: Speculative Decoding in Decentralized LLM Inference: Turning Communication Latency into Computation Throughput
- arxiv url: http://arxiv.org/abs/2511.11733v1
- Date: Thu, 13 Nov 2025 06:36:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.188238
- Title: Speculative Decoding in Decentralized LLM Inference: Turning Communication Latency into Computation Throughput
- Title(参考訳): 分散LLM推論における投機的復号化:通信遅延を計算処理に変換する
- Authors: Jingwei Song, Wanyi Chen, Xinyuan Song, Max, Chris Tong, Gufeng Chen, Tianyi Zhao, Eric Yang, Bill Shi, Lynn Ai,
- Abstract要約: 本稿では、分散推論のためのプラグイン・アンド・プレイフレームワークである分散投機復号(DSD)を提案する。
本稿では,トークンレベルのセマンティックな重要性によって受容しきい値を調整する適応的投機的検証手法を提案する。
DSDはHumanEvalで2.56倍、GSM8Kで2.59倍のスピードアップを達成し、精度を維持しながらEagle3ベースラインを抜いた。
- 参考スコア(独自算出の注目度): 8.480238305117298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding accelerates large language model (LLM) inference by using a lightweight draft model to propose tokens that are later verified by a stronger target model. While effective in centralized systems, its behavior in decentralized settings, where network latency often dominates compute, remains under-characterized. We present Decentralized Speculative Decoding (DSD), a plug-and-play framework for decentralized inference that turns communication delay into useful computation by verifying multiple candidate tokens in parallel across distributed nodes. We further introduce an adaptive speculative verification strategy that adjusts acceptance thresholds by token-level semantic importance, delivering an additional 15% to 20% end-to-end speedup without retraining. In theory, DSD reduces cross-node communication cost by approximately (N-1)t1(k-1)/k, where t1 is per-link latency and k is the average number of tokens accepted per round. In practice, DSD achieves up to 2.56x speedup on HumanEval and 2.59x on GSM8K, surpassing the Eagle3 baseline while preserving accuracy. These results show that adapting speculative decoding for decentralized execution provides a system-level optimization that converts network stalls into throughput, enabling faster distributed LLM inference with no model retraining or architectural changes.
- Abstract(参考訳): 投機的復号化は、軽量なドラフトモデルを用いて大規模言語モデル(LLM)推論を加速し、後により強力なターゲットモデルによって検証されるトークンを提案する。
中央集権的なシステムでは有効であるが、ネットワーク遅延がしばしば計算を支配している分散化された環境での動作は、まだ性能が低いままである。
本稿では、分散ノード間で複数の候補トークンを並列に検証することにより、通信遅延を有用な計算に変換する分散推論のためのプラグイン・アンド・プレイフレームワークである分散投機復号(DSD)を提案する。
さらに,トークンレベルのセマンティックな重要性によって受容しきい値を調整する適応的投機的検証戦略を導入し,再トレーニングなしに15%から20%のエンド・ツー・エンド・スピードアップを実現する。
理論上、DSDはノード間の通信コストをおよそ (N-1)t1(k-1)/k に削減する。
実際には、DSDはHumanEvalで2.56倍、GSM8Kで2.59倍のスピードアップを達成し、精度を維持しながらEagle3ベースラインを上回っている。
これらの結果から,分散化実行に投機的復号化を適用することで,ネットワークストールをスループットに変換するシステムレベルの最適化が実現され,モデル再構成やアーキテクチャ変更を伴わずに,高速な分散LLM推論が可能となった。
関連論文リスト
- Logit-Entropy Adaptive Stopping Heuristic for Efficient Chain-of-Thought Reasoning [0.0]
CoTプロンプト(Chain-of-Thought)は、大規模言語モデルにおいて複雑な推論を可能にする重要なテクニックである。
LEASH: Logit-Entropy Adaptive Stopping Heuristicは,有理数生成を適応的に停止する学習自由復号アルゴリズムである。
論文 参考訳(メタデータ) (2025-11-06T18:43:16Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Towards Communication-efficient Federated Learning via Sparse and Aligned Adaptive Optimization [90.08459757321405]
Federated Adam (FedAdam) アルゴリズムはアップリンク通信オーバーヘッドの3倍の増大に悩まされている。
我々はFedAdam-SSMと呼ばれる新しいスパースなFedAdamアルゴリズムを提案する。
我々は,FedAdam-SSMが訓練したモデルと集中型Adamの差異を最小化することにより,スペーシフィケーションエラーによる学習性能劣化を軽減するためにSSMを最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:56:49Z) - Lossless Acceleration of Large Language Model via Adaptive N-gram Parallel Decoding [2.642212767247493]
適応的なN-gram並列デコーディング(ANPD)を導入し,複数のトークンを同時に生成することで推論を高速化する。
ANPDは、処理速度を向上しながら、元の出力の完全性を維持する。
実験では、LLaMAのようなモデルとその微調整されたモデルが3.67倍の速度向上を示した。
論文 参考訳(メタデータ) (2024-04-10T16:11:09Z) - Sparse Decentralized Federated Learning [35.32297764027417]
分散フェデレートラーニング(DFL)は、中央サーバーなしで協調的なモデルトレーニングを可能にするが、効率、安定性、信頼性の課題に直面している。
Sparse DFL (SDFL) に繋がる共有モデルに空間制約を導入し,新しいアルゴリズムCEPSを提案する。
数値実験により,高い信頼性を維持しつつ,コミュニケーションと効率を向上させるための提案アルゴリズムの有効性が検証された。
論文 参考訳(メタデータ) (2023-08-31T12:22:40Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Two-Timescale End-to-End Learning for Channel Acquisition and Hybrid
Precoding [94.40747235081466]
本研究では,ミリ波(mmWave)大規模マルチインプット多重出力(MIMO)システムのためのエンドツーエンドの深層学習に基づくジョイントトランスシーバ設計アルゴリズムを提案する。
我々は受信したパイロットを受信機でフィードバックビットにマッピングし、さらに送信機でハイブリッドプリコーダにフィードバックビットをマッピングするDNNアーキテクチャを開発した。
論文 参考訳(メタデータ) (2021-10-22T20:49:02Z) - Overlap Local-SGD: An Algorithmic Approach to Hide Communication Delays
in Distributed SGD [32.03967072200476]
We propose a algorithmic approach named OverlapLocal-Local-Local-SGD (Local momentum variant)。
各ノードにアンカーモデルを追加することでこれを実現する。
複数のローカルアップデートの後、ローカルにトレーニングされたモデルは、他の人と通信するのではなく、アンカーモデルへと引き戻される。
論文 参考訳(メタデータ) (2020-02-21T20:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。