論文の概要: SLED: A Speculative LLM Decoding Framework for Efficient Edge Serving
- arxiv url: http://arxiv.org/abs/2506.09397v1
- Date: Wed, 11 Jun 2025 04:55:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.49089
- Title: SLED: A Speculative LLM Decoding Framework for Efficient Edge Serving
- Title(参考訳): SLED: 効率的なエッジサービングのための投機的LLMデコーディングフレームワーク
- Authors: Xiangchen Li, Dimitrios Spatharakis, Saeid Ghafouri, Jiakun Fan, Dimitrios Nikolopoulos,
- Abstract要約: 本稿では,大規模言語モデル(LLM)をエッジで効率的に参照するための新しいアプローチを提案する。
多様なドラフトモデルを用いて、複数の候補トークンをローカルに作成できる軽量エッジデバイスであるSLEDを提案する。
単一の共有エッジサーバは、より正確なターゲットモデルを用いてトークンを効率よくバッチし、検証する。
Jetson Orin Nano、Raspberry Pi 5、6000エッジサーバを使った最初の実験は、大きなメリットを示している。
- 参考スコア(独自算出の注目度): 1.1359551336076306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Regardless the advancements in device capabilities, efficient inferencing advanced large language models (LLMs) at the edge remains challenging due to limited device memory and power constraints. Existing strategies, such as aggressive quantization, pruning, or remote inference, trade accuracy for efficiency or lead to substantial cost burdens. This position paper introduces a new approach that leverages speculative decoding, previously viewed primarily as a decoding acceleration technique for autoregressive generation of LLMs, as a promising approach specifically adapted for edge computing by orchestrating computation across heterogeneous devices. We propose SLED, a method that allows lightweight edge devices to draft multiple candidate tokens locally using diverse draft models, while a single, shared edge server efficiently batches and verifies the tokens utilizing a more precise target model. This approach supports device heterogeneity and reduces server-side memory footprint by avoiding the need to deploy multiple target models. Our initial experiments with Jetson Orin Nano, Raspberry Pi 5, and an RTX 6000 edge server indicate substantial benefits: significantly reduced latency, improved energy efficiency, and increased concurrent inference sessions, all without sacrificing model accuracy.
- Abstract(参考訳): デバイスの能力の進歩にかかわらず、エッジにおける高度な大規模言語モデル(LLM)の効率的な推論は、デバイスメモリの制限と電力制約のため、依然として困難である。
アグレッシブ・量子化、プルーニング、リモート・推論といった既存の戦略は、効率の取引精度を向上させるか、実質的なコスト負担をもたらす。
本稿では,従来は自己回帰的LLM生成のための復号化促進手法と考えられていた投機的復号化手法を,異種デバイス間で計算をオーケストレーションすることによって,エッジコンピューティングに特化して適用する有望なアプローチとして活用する。
本研究では,軽量エッジデバイスにおいて,多種多様なドラフトモデルを用いて複数の候補トークンをローカルにドラフトできる手法であるSLEDを提案する。
このアプローチはデバイスの不均一性をサポートし、複数のターゲットモデルをデプロイする必要がないため、サーバ側のメモリフットプリントを削減する。
Jetson Orin Nano, Raspberry Pi 5, RTX 6000エッジサーバを使った最初の実験では, レイテンシの大幅な削減, エネルギー効率の向上, 同時推論セッションの増加など, モデル精度を犠牲にすることなく, 大幅なメリットが示された。
関連論文リスト
- SpecEdge: Scalable Edge-Assisted Serving Framework for Interactive LLMs [3.417027762559937]
大規模言語モデル(LLM)は多くのモダンなアプリケーションに電力を供給するが、大規模で費用がかかり、リソースを消費する。
私たちは、エッジとサーバGPU間でLLMワークロードを分割する、エッジ支援推論フレームワークであるSpecEdgeを紹介します。
SpecEdgeはサーバのスループットを2.22倍にすることでコスト効率を1.91倍に向上し、サーバのみのベースラインに比べてトークン間のレイテンシを11.24%削減する。
論文 参考訳(メタデータ) (2025-05-16T14:17:59Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [49.77734021302196]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバヘッドの最大60%削減,システム遅延の50%削減を実現している。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - Recurrent Diffusion for Large-Scale Parameter Generation [52.98888368644455]
リカレント拡散(Recurrent Diffusion for Large Scale Generation)は、単一のGPU上で最大数億のニューラルネットワークパラメータを生成する新しいフレームワークである。
RPGはAI生成において重要な進歩であり、以前は不可能と考えられていたスケールでの効率的な重量生成を可能にする可能性がある。
論文 参考訳(メタデータ) (2025-01-20T16:46:26Z) - Generative AI on the Edge: Architecture and Performance Evaluation [0.3999851878220877]
6GのAIネイティブビジョンであるアドバンストインテリジェンスをネットワークに組み込むには、エッジデバイス上のジェネレーティブAI(GenAI)モデルを体系的に評価する必要がある。
本研究では,ORANのエッジテストベッドとして機能する1つのコモディティRaspberry Pi上でのLLM(Large Language Models)推論の計算要求について検討する。
論文 参考訳(メタデータ) (2024-11-18T16:09:01Z) - Mixture of Attentions For Speculative Decoding [17.344416130742232]
投機的復号法(SD)は、より小さなモデルを利用して将来のトークンを効率的に提案し、それを大規模言語モデルによって並列に検証する。
SDモデルには、トレーニング中のオン・ポリティネスの欠如や部分観測可能性の欠如など、いくつかの制限がある。
SD用ミクチャ・オブ・アテンションの導入により,小型モデルのより基礎的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-04T10:25:52Z) - Enabling Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines [17.539008562641303]
大規模言語モデル(LLM)は現在、大規模なクラウドサーバ上で事前トレーニングされ、微調整されている。
次のフロンティアはLLMパーソナライズであり、ファンデーションモデルをユーザ/タスク固有のデータで微調整することができる。
リソース制約のあるエッジデバイスの微調整は、かなりのメモリと計算要求のために大きな課題となる。
論文 参考訳(メタデータ) (2024-09-23T20:14:09Z) - Stochastic Configuration Machines: FPGA Implementation [4.57421617811378]
コンフィグレーションネットワーク(SCN)は、データモデリングのメリットと実現可能性から、産業アプリケーションにおいて主要な選択肢である。
本稿では、フィールドプログラマブルゲートアレイ(FPGA)にSCMモデルを実装し、学習性能を向上させるためにバイナリコード入力を導入することを目的とする。
論文 参考訳(メタデータ) (2023-10-30T02:04:20Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。