Fugu-MT 論文翻訳(概要): GELATO: Generative Entropy- and Lyapunov-based Adaptive Token Offloading for Device-Edge Speculative LLM Inference

論文の概要: GELATO: Generative Entropy- and Lyapunov-based Adaptive Token Offloading for Device-Edge Speculative LLM Inference

arxiv url: http://arxiv.org/abs/2605.10124v1
Date: Mon, 11 May 2026 07:38:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:50.609137
Title: GELATO: Generative Entropy- and Lyapunov-based Adaptive Token Offloading for Device-Edge Speculative LLM Inference
Title（参考訳）: GELATO: デバイスエッジ投機LSM推論のための生成エントロピーとリアプノフに基づく適応トークンオフロード
Authors: Zengzipeng Tang, Yuxuan Sun, Wei Chen, Jianwen Ding, Bo Ai,
Abstract要約: 投機的復号化(SD)は、軽量のドラフトモデルが検証対象のトークンを迅速に生成し、ますます普及している。本稿では,エネルギー制約下での復号スループットを最大化するためにGELATOという,リアプノフをベースとした適応トークンオフロードフレームワークを提案する。
参考スコア（独自算出の注目度）: 14.638068095435578
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recent growth of on-device Large Language Model (LLM) inference has driven significant interest in device-edge collaborative LLM inference. As a promising architecture, Speculative Decoding (SD) is increasingly adopted where a lightweight draft model rapidly generates candidate tokens to be verified by a powerful target model. However, a fundamental challenge lies in achieving per-token resource scheduling to effectively adapt SD paradigm to resource-constrained edge environment. This paper proposes a Generative Entropy- and Lyapunov-based Adaptive Token Offloading framework, named GELATO, to maximize decoding throughput under energy constraints in a device-edge collaborative SD system. Specifically, an outer drift-plus-penalty loop makes online decisions to establish a reference drafting budget, managing long-term energy-throughput trade-off. Further, a nested entropy-driven generation mechanism executes early exiting to adapt to per-token dynamic generative uncertainty. Theoretical analysis establishes a rigorous performance bound on long-term throughput for GELATO. Extensive evaluations demonstrate that GELATO achieves a globally optimal tradeoff, outperforming state-of-the-art distributed SD architectures by 64.98% in token throughput and reducing energy consumption by 47.47% under resource-constrained environments, while preserving LLM decoding quality.
Abstract（参考訳）: 近年のデバイス上での大規模言語モデル(LLM)推論の成長は,デバイスエッジ協調LLM推論に大きな関心を惹き付けている。有望なアーキテクチャとして、軽量なドラフトモデルが強力なターゲットモデルによって検証される候補トークンを迅速に生成する、投機的デコーディング(SD)がますます採用されている。しかし、基本的な課題は、リソース制約のあるエッジ環境にSDパラダイムを効果的に適応させるために、トークンごとのリソーススケジューリングを実現することである。本稿では, デバイスエッジ協調型SDシステムにおいて, エネルギー制約下での復号スループットを最大化するために, GELATOという, リアプノフをベースとしたアダプティブエントロピーおよびアダプティブトークンオフロードフレームワークを提案する。具体的には、外部のドリフト・プラス・ペナルティループは、参照起草予算を確立するためのオンライン決定を行い、長期のエネルギー需給トレードオフを管理します。さらに、ネストされたエントロピー駆動発生機構は、早期退避を実行し、トーケンごとの動的生成不確実性に適応させる。理論的解析によりGELATOの長期スループットに拘束される厳密な性能が確立される。大規模評価の結果、GELATOは世界規模で最適なトレードオフを達成し、最先端の分散SDアーキテクチャを64.98%のトークンスループットで達成し、資源制約環境下でのエネルギー消費を47.47%削減し、LCM復号品質を維持した。

論文の概要: GELATO: Generative Entropy- and Lyapunov-based Adaptive Token Offloading for Device-Edge Speculative LLM Inference

関連論文リスト