論文の概要: ECHO: Elastic Speculative Decoding with Sparse Gating for High-Concurrency Scenarios
- arxiv url: http://arxiv.org/abs/2604.09603v1
- Date: Tue, 10 Mar 2026 03:51:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.543209
- Title: ECHO: Elastic Speculative Decoding with Sparse Gating for High-Concurrency Scenarios
- Title(参考訳): ECHO: 高速シナリオのためのスパースゲーティングによるElastic Speculative Decoding
- Authors: Xinyi Hu, Yuhao Shen, Baolin Zhang, Hengxin Zhang, Jun Dai, Shuang Ge, Lei Chen, Yue Li, Mingcheng Wan,
- Abstract要約: 投機的復号化は、大規模言語モデルの推論を加速することを約束するが、その有効性はプロダクショングレードのサービスでしばしば低下する。
我々はSGLangに統合された高機能なフレームワークであるECHOを導入し、予算スケジューリング問題として投機的実行を再構成する。
ECHOは低負荷と高負荷の両方のシナリオでSOTA法を一貫して上回り、最大5.35倍のウォールタイムスピードアップを実現し、20%以上の相対的なスピードアップを実現している。
- 参考スコア(独自算出の注目度): 12.103618967955846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative Decoding promises to accelerate the inference of Large Language Models, yet its efficacy often degrades in production-grade serving. Existing evaluations typically overlook the compute-bound nature of high-concurrency regimes, where verification compute becomes the dominant bottleneck. Consequently, prior methods face a dilemma: static trees incur massive verification waste, while dynamic trees suffer from cumulative misjudgments and kernel incompatibility. To bridge this gap, we introduce ECHO, a high concurrency-oriented framework integrated into SGLang that reformulates speculative execution as a budgeted scheduling problem. Crucially, ECHO employs sparse confidence gating to manage the batch as a unified super-tree, elastically pivoting budget between depth and width to co-optimize the trade-off between reducing global verification steps and maximizing per-step efficiency. Extensive evaluations across diverse model scales-particularly the industrial-grade Qwen3-235B-demonstrate that ECHO consistently outperforms SOTA methods in both low-load and high-load scenarios, achieving up to 5.35x walltime speedup and delivering over 20% relative speedup gain.
- Abstract(参考訳): 投機的復号化は、大規模言語モデルの推論を加速することを約束するが、その有効性はプロダクショングレードのサービスでしばしば低下する。
既存の評価は、検証計算が支配的なボトルネックとなる高コンカレンシーな体制の計算バウンドの性質を見落としているのが一般的である。
静的な木は大規模な検証の無駄を発生させ、動的木は累積的な不正判断とカーネルの非互換性に悩まされる。
このギャップを埋めるために、我々はSGLangに統合された高並行性指向のフレームワークであるECHOを紹介します。
重要なことに、ECHOは、バッチを統一されたスーパーツリーとして管理し、深さと幅の間の予算を弾性的にピボットし、グローバルな検証ステップの削減とステップごとの効率の最大化とのトレードオフを最適化するために、スパース信頼ゲーティング(sparse confidence gating)を採用している。
特に工業用グレードのQwen3-235B-demonstrateでは、ECHOは低負荷と高負荷の両方のシナリオでSOTA法を一貫して上回り、ウォールタイムの最大5.35倍のスピードアップを実現し、20%以上の相対的なスピードアップを実現している。
関連論文リスト
- Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning [74.5532558466687]
群 Relative Reward Rescaling (GR$3$) は、一般的な、連続かつ報酬に依存したゲーティング機構である。
GR$3$は、標準のGRPOに匹敵するトレーニングダイナミクスとダウンストリームのパフォーマンスを維持する。
それは長さのインフレーションを著しく軽減し、最先端の長周期正規化ベースラインを上回ります。
論文 参考訳(メタデータ) (2026-03-11T08:41:34Z) - Adaptive-Horizon Conflict-Based Search for Closed-Loop Multi-Agent Path Finding [10.628717510399046]
MAPFは、倉庫や物流の自動化において、大規模なロボット群の中核的な調整問題である。
既存のアプローチは、固定軌道を生成するオープンループプランナか、信頼性の高い性能保証のないクローズループである。
本稿では,CBSの有限水平変速器をベースとした閉ループであるACCBSについて述べる。
論文 参考訳(メタデータ) (2026-02-12T14:55:16Z) - HQP: Sensitivity-Aware Hybrid Quantization and Pruning for Ultra-Low-Latency Edge AI Inference [0.0]
相乗的モデル加速を実現するために設計されたHybrid Quantization and Pruning (HQP)フレームワーク。
HQPフレームワークは3.12倍の推論速度向上と55%のモデルサイズ縮小を実現している。
論文 参考訳(メタデータ) (2026-02-02T18:17:45Z) - Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。
問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。
BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-20T12:06:13Z) - READER: Retrieval-Assisted Drafter for Efficient LLM Inference [0.0386965802948046]
自己回帰言語モデルはトークンシーケンスよりも分解された確率をインスタンス化するが、その厳密なシーケンシャルなデコーディングプロセスは、遅延推論に固有の低いバウンドを課す。
このボトルネックは、大規模生成モデルのスケーラブルなデプロイにおける中心的な障害として現れています。
本稿では,補助的ドラフトモデルのトレーニングを回避した投機的復号化フレームワークREADERを提案する。
論文 参考訳(メタデータ) (2025-08-12T16:47:48Z) - Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。
DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。
DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文 参考訳(メタデータ) (2025-08-01T17:56:07Z) - Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [70.38810219913593]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。
GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。
本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-16T02:24:21Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Accelerating Chain-of-Thought Reasoning: When Goal-Gradient Importance Meets Dynamic Skipping [3.521097198612099]
Adaptive GoGI-Skipは、教師付き微調整によって動的CoT圧縮を学ぶ新しいフレームワークである。
CoTトークンの数を平均で45%以上削減し、1.6~2.0倍の推論スピードアップを実現している。
特に、高い効率の圧縮速度でも精度を保ち、既存のベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-05-13T09:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。