論文の概要: Fast and Cost-effective Speculative Edge-Cloud Decoding with Early Exits
- arxiv url: http://arxiv.org/abs/2505.21594v1
- Date: Tue, 27 May 2025 14:55:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.197203
- Title: Fast and Cost-effective Speculative Edge-Cloud Decoding with Early Exits
- Title(参考訳): 早期出力による高速かつ低コストな投機的エッジクラウドデコーディング
- Authors: Yeshwanth Venkatesha, Souvik Kundu, Priyadarshini Panda,
- Abstract要約: 大型言語モデル(LLM)は、スマートフォン、ウェアラブル、エンボディロボットなどのエッジデバイス上の様々なアプリケーションを可能にする。
LLMはデバイス上でデプロイ可能で、レイテンシを低減し、プライバシを改善したコスト効率の高いソリューションを提供する。
本稿では,サーバ上での大きなターゲットモデルとデバイス上での小さなドラフトモデルを備えた,高速で費用対効果の高いエッジクラウドデコーディングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.398891065175686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) enable various applications on edge devices such as smartphones, wearables, and embodied robots. However, their deployment often depends on expensive cloud-based APIs, creating high operational costs, which limit access for smaller organizations and raise sustainability concerns. Certain LLMs can be deployed on-device, offering a cost-effective solution with reduced latency and improved privacy. Yet, limited computing resources constrain the size and accuracy of models that can be deployed, necessitating a collaborative design between edge and cloud. We propose a fast and cost-effective speculative edge-cloud decoding framework with a large target model on the server and a small draft model on the device. By introducing early exits in the target model, tokens are generated mid-verification, allowing the client to preemptively draft subsequent tokens before final verification, thus utilizing idle time and enhancing parallelism between edge and cloud. Using an NVIDIA Jetson Nano (client) and an A100 GPU (server) with Vicuna-68M (draft) and Llama2-7B (target) models, our method achieves up to a 35% reduction in latency compared to cloud-based autoregressive decoding, with an additional 11% improvement from preemptive drafting. To demonstrate real-world applicability, we deploy our method on the Unitree Go2 quadruped robot using Vision-Language Model (VLM) based control, achieving a 21% speedup over traditional cloud-based autoregressive decoding. These results demonstrate the potential of our framework for real-time LLM and VLM applications on resource-constrained edge devices.
- Abstract(参考訳): 大型言語モデル(LLM)は、スマートフォン、ウェアラブル、エンボディロボットなどのエッジデバイス上の様々なアプリケーションを可能にする。
しかしながら、彼らのデプロイメントは、しばしば高価なクラウドベースのAPIに依存し、運用コストが高く、小さな組織へのアクセスを制限し、サステナビリティの懸念を高める。
一部のLCMはデバイス上でデプロイ可能で、レイテンシの低減とプライバシの向上によるコスト効率の高いソリューションを提供する。
しかし、限られたコンピューティングリソースは、デプロイ可能なモデルのサイズと精度を制限し、エッジとクラウド間の協調設計を必要とする。
本稿では,サーバ上の大きなターゲットモデルとデバイス上の小さなドラフトモデルを備えた,高速で費用対効果の高いエッジクラウドデコーディングフレームワークを提案する。
ターゲットモデルに早期出口を導入することで、トークンは検証の途中で生成され、クライアントは最終検証の前に後続のトークンを事前にドラフトし、アイドル時間を活用し、エッジとクラウド間の並列性を高めることができる。
NVIDIA Jetson Nano(クライアント)とVicuna-68M(ドラフト)とLlama2-7B(ターゲット)モデルを備えたA100 GPU(サーバ)を用いて,クラウドベースの自己回帰デコーディングと比較して最大35%の遅延削減を実現し,プリエンプティブドラフトから11%改善した。
実世界の応用性を実証するために,ビジョンランゲージモデル(VLM)に基づく制御を用いて,従来のクラウドベースの自己回帰復号化よりも21%高速化されたUnitree Go2四脚ロボットに本手法をデプロイした。
これらの結果は,資源制約エッジデバイス上でのリアルタイムLLMおよびVLMアプリケーションのためのフレームワークの可能性を示している。
関連論文リスト
- Mixture of Attentions For Speculative Decoding [17.344416130742232]
投機的復号法(SD)は、より小さなモデルを利用して将来のトークンを効率的に提案し、それを大規模言語モデルによって並列に検証する。
SDモデルには、トレーニング中のオン・ポリティネスの欠如や部分観測可能性の欠如など、いくつかの制限がある。
SD用ミクチャ・オブ・アテンションの導入により,小型モデルのより基礎的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-04T10:25:52Z) - Towards Robust and Efficient Cloud-Edge Elastic Model Adaptation via Selective Entropy Distillation [56.79064699832383]
Cloud-Edge Elastic Model Adaptation (CEMA)パラダイムを確立し、エッジモデルが前方伝播のみを実行するようにします。
CEMAでは,通信負担を軽減するため,不要なサンプルをクラウドにアップロードすることを避けるための2つの基準を考案した。
論文 参考訳(メタデータ) (2024-02-27T08:47:19Z) - Streaming Video Analytics On The Edge With Asynchronous Cloud Support [2.7456483236562437]
本稿では,エッジとクラウドの予測を融合させ,低レイテンシで高精度なエッジクラウド融合アルゴリズムを提案する。
ビデオのオブジェクト検出(多くのビデオ分析シナリオに適用可能)に注目し、融合したエッジクラウド予測が、エッジのみのシナリオとクラウドのみのシナリオの精度を最大50%上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T06:22:13Z) - DUET: A Tuning-Free Device-Cloud Collaborative Parameters Generation Framework for Efficient Device Model Generalization [66.27399823422665]
デバイスモデル一般化(Device Model Generalization, DMG)は、デバイス上での機械学習アプリケーションにおいて、実用的ながら実証されていない研究トピックである。
本稿では,Device-cloUdコラボレーティブパラメトリクスフレームワークDUETを提案する。
論文 参考訳(メタデータ) (2022-09-12T13:26:26Z) - Auto-Split: A General Framework of Collaborative Edge-Cloud AI [49.750972428032355]
本稿では,Huawei Cloudのエッジクラウド共同プロトタイプであるAuto-Splitの技法と技術実践について述べる。
私たちの知る限りでは、Deep Neural Network(DNN)分割機能を提供する既存の産業製品はありません。
論文 参考訳(メタデータ) (2021-08-30T08:03:29Z) - Cocktail: Leveraging Ensemble Learning for Optimized Model Serving in
Public Cloud [9.149566952446058]
コスト効率の良いアンサンブル型モデル提供フレームワークであるCocktailを提案する。
AWS EC2プラットフォームであるCocktailonのプロトタイプ実装と、さまざまなワークロードを使用した徹底的な評価オプションにより、Cocktailcanがデプロイメントコストを1.45倍削減できることが示されている。
論文 参考訳(メタデータ) (2021-06-09T19:23:58Z) - Device-Cloud Collaborative Learning for Recommendation [50.01289274123047]
集中型クラウドモデルにより「数千人のモデルを持つ何千人もの人」を効率的に実現する新しいMetaPatch学習手法をデバイス側で提案します。
数十億の更新されたパーソナライズされたデバイスモデルにより、集中型クラウドモデルを更新する"モデルオーバーモデル"蒸留アルゴリズム、すなわちMoMoDistillを提案する。
論文 参考訳(メタデータ) (2021-04-14T05:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。