論文の概要: SLED: A Speculative LLM Decoding Framework for Efficient Edge Serving
- arxiv url: http://arxiv.org/abs/2506.09397v1
- Date: Wed, 11 Jun 2025 04:55:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.49089
- Title: SLED: A Speculative LLM Decoding Framework for Efficient Edge Serving
- Title(参考訳): SLED: 効率的なエッジサービングのための投機的LLMデコーディングフレームワーク
- Authors: Xiangchen Li, Dimitrios Spatharakis, Saeid Ghafouri, Jiakun Fan, Dimitrios Nikolopoulos,
- Abstract要約: 本稿では,大規模言語モデル(LLM)をエッジで効率的に参照するための新しいアプローチを提案する。
多様なドラフトモデルを用いて、複数の候補トークンをローカルに作成できる軽量エッジデバイスであるSLEDを提案する。
単一の共有エッジサーバは、より正確なターゲットモデルを用いてトークンを効率よくバッチし、検証する。
Jetson Orin Nano、Raspberry Pi 5、6000エッジサーバを使った最初の実験は、大きなメリットを示している。
- 参考スコア(独自算出の注目度): 1.1359551336076306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Regardless the advancements in device capabilities, efficient inferencing advanced large language models (LLMs) at the edge remains challenging due to limited device memory and power constraints. Existing strategies, such as aggressive quantization, pruning, or remote inference, trade accuracy for efficiency or lead to substantial cost burdens. This position paper introduces a new approach that leverages speculative decoding, previously viewed primarily as a decoding acceleration technique for autoregressive generation of LLMs, as a promising approach specifically adapted for edge computing by orchestrating computation across heterogeneous devices. We propose SLED, a method that allows lightweight edge devices to draft multiple candidate tokens locally using diverse draft models, while a single, shared edge server efficiently batches and verifies the tokens utilizing a more precise target model. This approach supports device heterogeneity and reduces server-side memory footprint by avoiding the need to deploy multiple target models. Our initial experiments with Jetson Orin Nano, Raspberry Pi 5, and an RTX 6000 edge server indicate substantial benefits: significantly reduced latency, improved energy efficiency, and increased concurrent inference sessions, all without sacrificing model accuracy.
- Abstract(参考訳): デバイスの能力の進歩にかかわらず、エッジにおける高度な大規模言語モデル(LLM)の効率的な推論は、デバイスメモリの制限と電力制約のため、依然として困難である。
アグレッシブ・量子化、プルーニング、リモート・推論といった既存の戦略は、効率の取引精度を向上させるか、実質的なコスト負担をもたらす。
本稿では,従来は自己回帰的LLM生成のための復号化促進手法と考えられていた投機的復号化手法を,異種デバイス間で計算をオーケストレーションすることによって,エッジコンピューティングに特化して適用する有望なアプローチとして活用する。
本研究では,軽量エッジデバイスにおいて,多種多様なドラフトモデルを用いて複数の候補トークンをローカルにドラフトできる手法であるSLEDを提案する。
このアプローチはデバイスの不均一性をサポートし、複数のターゲットモデルをデプロイする必要がないため、サーバ側のメモリフットプリントを削減する。
Jetson Orin Nano, Raspberry Pi 5, RTX 6000エッジサーバを使った最初の実験では, レイテンシの大幅な削減, エネルギー効率の向上, 同時推論セッションの増加など, モデル精度を犠牲にすることなく, 大幅なメリットが示された。
関連論文リスト
- Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [49.77734021302196]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバヘッドの最大60%削減,システム遅延の50%削減を実現している。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - Recurrent Diffusion for Large-Scale Parameter Generation [52.98888368644455]
リカレント拡散(Recurrent Diffusion for Large Scale Generation)は、単一のGPU上で最大数億のニューラルネットワークパラメータを生成する新しいフレームワークである。
RPGはAI生成において重要な進歩であり、以前は不可能と考えられていたスケールでの効率的な重量生成を可能にする可能性がある。
論文 参考訳(メタデータ) (2025-01-20T16:46:26Z) - Enabling Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines [17.539008562641303]
大規模言語モデル(LLM)は現在、大規模なクラウドサーバ上で事前トレーニングされ、微調整されている。
次のフロンティアはLLMパーソナライズであり、ファンデーションモデルをユーザ/タスク固有のデータで微調整することができる。
リソース制約のあるエッジデバイスの微調整は、かなりのメモリと計算要求のために大きな課題となる。
論文 参考訳(メタデータ) (2024-09-23T20:14:09Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。