論文の概要: GELATO: Generative Entropy- and Lyapunov-based Adaptive Token Offloading for Device-Edge Speculative LLM Inference
- arxiv url: http://arxiv.org/abs/2605.10124v1
- Date: Mon, 11 May 2026 07:38:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.609137
- Title: GELATO: Generative Entropy- and Lyapunov-based Adaptive Token Offloading for Device-Edge Speculative LLM Inference
- Title(参考訳): GELATO: デバイスエッジ投機LSM推論のための生成エントロピーとリアプノフに基づく適応トークンオフロード
- Authors: Zengzipeng Tang, Yuxuan Sun, Wei Chen, Jianwen Ding, Bo Ai,
- Abstract要約: 投機的復号化(SD)は、軽量のドラフトモデルが検証対象のトークンを迅速に生成し、ますます普及している。
本稿では,エネルギー制約下での復号スループットを最大化するためにGELATOという,リアプノフをベースとした適応トークンオフロードフレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.638068095435578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent growth of on-device Large Language Model (LLM) inference has driven significant interest in device-edge collaborative LLM inference. As a promising architecture, Speculative Decoding (SD) is increasingly adopted where a lightweight draft model rapidly generates candidate tokens to be verified by a powerful target model. However, a fundamental challenge lies in achieving per-token resource scheduling to effectively adapt SD paradigm to resource-constrained edge environment. This paper proposes a Generative Entropy- and Lyapunov-based Adaptive Token Offloading framework, named GELATO, to maximize decoding throughput under energy constraints in a device-edge collaborative SD system. Specifically, an outer drift-plus-penalty loop makes online decisions to establish a reference drafting budget, managing long-term energy-throughput trade-off. Further, a nested entropy-driven generation mechanism executes early exiting to adapt to per-token dynamic generative uncertainty. Theoretical analysis establishes a rigorous performance bound on long-term throughput for GELATO. Extensive evaluations demonstrate that GELATO achieves a globally optimal tradeoff, outperforming state-of-the-art distributed SD architectures by 64.98% in token throughput and reducing energy consumption by 47.47% under resource-constrained environments, while preserving LLM decoding quality.
- Abstract(参考訳): 近年のデバイス上での大規模言語モデル(LLM)推論の成長は,デバイスエッジ協調LLM推論に大きな関心を惹き付けている。
有望なアーキテクチャとして、軽量なドラフトモデルが強力なターゲットモデルによって検証される候補トークンを迅速に生成する、投機的デコーディング(SD)がますます採用されている。
しかし、基本的な課題は、リソース制約のあるエッジ環境にSDパラダイムを効果的に適応させるために、トークンごとのリソーススケジューリングを実現することである。
本稿では, デバイスエッジ協調型SDシステムにおいて, エネルギー制約下での復号スループットを最大化するために, GELATOという, リアプノフをベースとしたアダプティブエントロピーおよびアダプティブトークンオフロードフレームワークを提案する。
具体的には、外部のドリフト・プラス・ペナルティループは、参照起草予算を確立するためのオンライン決定を行い、長期のエネルギー需給トレードオフを管理します。
さらに、ネストされたエントロピー駆動発生機構は、早期退避を実行し、トーケンごとの動的生成不確実性に適応させる。
理論的解析によりGELATOの長期スループットに拘束される厳密な性能が確立される。
大規模評価の結果、GELATOは世界規模で最適なトレードオフを達成し、最先端の分散SDアーキテクチャを64.98%のトークンスループットで達成し、資源制約環境下でのエネルギー消費を47.47%削減し、LCM復号品質を維持した。
関連論文リスト
- Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。