Fugu-MT 論文翻訳(概要): Fast and Cost-effective Speculative Edge-Cloud Decoding with Early Exits

論文の概要: Fast and Cost-effective Speculative Edge-Cloud Decoding with Early Exits

arxiv url: http://arxiv.org/abs/2505.21594v1
Date: Tue, 27 May 2025 14:55:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 17:35:50.197203
Title: Fast and Cost-effective Speculative Edge-Cloud Decoding with Early Exits
Title（参考訳）: 早期出力による高速かつ低コストな投機的エッジクラウドデコーディング
Authors: Yeshwanth Venkatesha, Souvik Kundu, Priyadarshini Panda,
Abstract要約: 大型言語モデル(LLM)は、スマートフォン、ウェアラブル、エンボディロボットなどのエッジデバイス上の様々なアプリケーションを可能にする。 LLMはデバイス上でデプロイ可能で、レイテンシを低減し、プライバシを改善したコスト効率の高いソリューションを提供する。本稿では,サーバ上での大きなターゲットモデルとデバイス上での小さなドラフトモデルを備えた,高速で費用対効果の高いエッジクラウドデコーディングフレームワークを提案する。
参考スコア（独自算出の注目度）: 11.398891065175686
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) enable various applications on edge devices such as smartphones, wearables, and embodied robots. However, their deployment often depends on expensive cloud-based APIs, creating high operational costs, which limit access for smaller organizations and raise sustainability concerns. Certain LLMs can be deployed on-device, offering a cost-effective solution with reduced latency and improved privacy. Yet, limited computing resources constrain the size and accuracy of models that can be deployed, necessitating a collaborative design between edge and cloud. We propose a fast and cost-effective speculative edge-cloud decoding framework with a large target model on the server and a small draft model on the device. By introducing early exits in the target model, tokens are generated mid-verification, allowing the client to preemptively draft subsequent tokens before final verification, thus utilizing idle time and enhancing parallelism between edge and cloud. Using an NVIDIA Jetson Nano (client) and an A100 GPU (server) with Vicuna-68M (draft) and Llama2-7B (target) models, our method achieves up to a 35% reduction in latency compared to cloud-based autoregressive decoding, with an additional 11% improvement from preemptive drafting. To demonstrate real-world applicability, we deploy our method on the Unitree Go2 quadruped robot using Vision-Language Model (VLM) based control, achieving a 21% speedup over traditional cloud-based autoregressive decoding. These results demonstrate the potential of our framework for real-time LLM and VLM applications on resource-constrained edge devices.
Abstract（参考訳）: 大型言語モデル(LLM)は、スマートフォン、ウェアラブル、エンボディロボットなどのエッジデバイス上の様々なアプリケーションを可能にする。しかしながら、彼らのデプロイメントは、しばしば高価なクラウドベースのAPIに依存し、運用コストが高く、小さな組織へのアクセスを制限し、サステナビリティの懸念を高める。一部のLCMはデバイス上でデプロイ可能で、レイテンシの低減とプライバシの向上によるコスト効率の高いソリューションを提供する。しかし、限られたコンピューティングリソースは、デプロイ可能なモデルのサイズと精度を制限し、エッジとクラウド間の協調設計を必要とする。本稿では,サーバ上の大きなターゲットモデルとデバイス上の小さなドラフトモデルを備えた,高速で費用対効果の高いエッジクラウドデコーディングフレームワークを提案する。ターゲットモデルに早期出口を導入することで、トークンは検証の途中で生成され、クライアントは最終検証の前に後続のトークンを事前にドラフトし、アイドル時間を活用し、エッジとクラウド間の並列性を高めることができる。 NVIDIA Jetson Nano(クライアント)とVicuna-68M(ドラフト)とLlama2-7B(ターゲット)モデルを備えたA100 GPU(サーバ)を用いて,クラウドベースの自己回帰デコーディングと比較して最大35%の遅延削減を実現し,プリエンプティブドラフトから11%改善した。実世界の応用性を実証するために,ビジョンランゲージモデル(VLM)に基づく制御を用いて,従来のクラウドベースの自己回帰復号化よりも21%高速化されたUnitree Go2四脚ロボットに本手法をデプロイした。これらの結果は,資源制約エッジデバイス上でのリアルタイムLLMおよびVLMアプリケーションのためのフレームワークの可能性を示している。

関連論文リスト

SLED: A Speculative LLM Decoding Framework for Efficient Edge Serving [7.91607650966469]
acronymは、軽量エッジデバイスが様々なドラフトモデルを使用して、複数の候補トークンをローカルにドラフトできるフレームワークである。単一の共有エッジサーバは、より正確なターゲットモデルを用いてトークンを検証する。 Jetson Orin Nano、Raspberry Pi 4B/5、Nvidia A100 GPUを搭載したエッジサーバを使った最初の実験は、大きなメリットを示している。
論文参考訳（メタデータ） (2025-06-11T04:55:54Z)
DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.57151419673759]
投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文参考訳（メタデータ） (2025-03-02T08:27:48Z)
CE-CoLLM: Efficient and Adaptive Large Language Models Through Cloud-Edge Collaboration [1.6021932740447968]
大型言語モデル(LLM)は、人間のような優れた予測能力を示す。 LLMをデプロイして、エッジで効率的かつ適応的な推論サービスを提供するのは難しい。本稿では,これらの課題に対処するために,LLM(CE-CoLLM)のための新しいクラウドエッジコラボレーションフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-05T06:00:27Z)
Mixture of Attentions For Speculative Decoding [17.344416130742232]
投機的復号法(SD)は、より小さなモデルを利用して将来のトークンを効率的に提案し、それを大規模言語モデルによって並列に検証する。 SDモデルには、トレーニング中のオン・ポリティネスの欠如や部分観測可能性の欠如など、いくつかの制限がある。 SD用ミクチャ・オブ・アテンションの導入により,小型モデルのより基礎的なアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-10-04T10:25:52Z)
Towards Robust and Efficient Cloud-Edge Elastic Model Adaptation via Selective Entropy Distillation [56.79064699832383]
Cloud-Edge Elastic Model Adaptation (CEMA)パラダイムを確立し、エッジモデルが前方伝播のみを実行するようにします。 CEMAでは,通信負担を軽減するため,不要なサンプルをクラウドにアップロードすることを避けるための2つの基準を考案した。
論文参考訳（メタデータ） (2024-02-27T08:47:19Z)
ECLM: Efficient Edge-Cloud Collaborative Learning with Continuous Environment Adaptation [47.35179593006409]
動的エッジ環境に対する高速モデル適応のためのエッジクラウド協調学習フレームワークECLMを提案する。その結果,ECLM はモデルの性能(例えば 18.89% の精度向上)と資源効率(例えば 7.12 倍の通信コスト削減)を,動的エッジ環境への適応において著しく向上させることを示した。
論文参考訳（メタデータ） (2023-11-18T14:10:09Z)
Streaming Video Analytics On The Edge With Asynchronous Cloud Support [2.7456483236562437]
本稿では,エッジとクラウドの予測を融合させ,低レイテンシで高精度なエッジクラウド融合アルゴリズムを提案する。ビデオのオブジェクト検出(多くのビデオ分析シナリオに適用可能)に注目し、融合したエッジクラウド予測が、エッジのみのシナリオとクラウドのみのシナリオの精度を最大50%上回ることを示す。
論文参考訳（メタデータ） (2022-10-04T06:22:13Z)
DUET: A Tuning-Free Device-Cloud Collaborative Parameters Generation Framework for Efficient Device Model Generalization [66.27399823422665]
デバイスモデル一般化(Device Model Generalization, DMG)は、デバイス上での機械学習アプリケーションにおいて、実用的ながら実証されていない研究トピックである。本稿では,Device-cloUdコラボレーティブパラメトリクスフレームワークDUETを提案する。
論文参考訳（メタデータ） (2022-09-12T13:26:26Z)
Auto-Split: A General Framework of Collaborative Edge-Cloud AI [49.750972428032355]
本稿では,Huawei Cloudのエッジクラウド共同プロトタイプであるAuto-Splitの技法と技術実践について述べる。私たちの知る限りでは、Deep Neural Network(DNN)分割機能を提供する既存の産業製品はありません。
論文参考訳（メタデータ） (2021-08-30T08:03:29Z)
Cocktail: Leveraging Ensemble Learning for Optimized Model Serving in Public Cloud [9.149566952446058]
コスト効率の良いアンサンブル型モデル提供フレームワークであるCocktailを提案する。 AWS EC2プラットフォームであるCocktailonのプロトタイプ実装と、さまざまなワークロードを使用した徹底的な評価オプションにより、Cocktailcanがデプロイメントコストを1.45倍削減できることが示されている。
論文参考訳（メタデータ） (2021-06-09T19:23:58Z)
Device-Cloud Collaborative Learning for Recommendation [50.01289274123047]
集中型クラウドモデルにより「数千人のモデルを持つ何千人もの人」を効率的に実現する新しいMetaPatch学習手法をデバイス側で提案します。数十億の更新されたパーソナライズされたデバイスモデルにより、集中型クラウドモデルを更新する"モデルオーバーモデル"蒸留アルゴリズム、すなわちMoMoDistillを提案する。
論文参考訳（メタデータ） (2021-04-14T05:06:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。